{"id":15133,"date":"2024-11-08T13:14:46","date_gmt":"2024-11-08T11:14:46","guid":{"rendered":"https:\/\/distam.hypotheses.org\/?p=15133"},"modified":"2025-10-25T20:01:47","modified_gmt":"2025-10-25T18:01:47","slug":"graphies-arabes-et-transcription-automatique-vers-une-reconnaissance-textuelle-haute-precision","status":"publish","type":"post","link":"https:\/\/distam.hypotheses.org\/15133","title":{"rendered":"Graphies Arabes et Transcription Automatique : Vers une Reconnaissance Textuelle Haute Pr\u00e9cision"},"content":{"rendered":"\n<pre class=\"wp-block-preformatted\">Auteur : Chahan Vidal-Gor\u00e8ne<\/pre>\n\n\n\n<p>La transcription automatique de textes, qu\u2019il s\u2019agisse de l\u2019OCR (Optical Character Recognition) pour les documents imprim\u00e9s ou de l\u2019HTR (Handwritten Text Recognition) pour les manuscrits, est d\u00e9sormais bien ancr\u00e9e dans le domaine des humanit\u00e9s num\u00e9riques. Elle facilite l\u2019acquisition et la structuration de corpus textuels, atteignant souvent des taux de reconnaissance d\u00e9passant les 95%, offrant ainsi une base solide pour des analyses tant quantitatives que qualitatives.<\/p>\n\n\n\n<p>Si ces avanc\u00e9es ont longtemps \u00e9t\u00e9 limit\u00e9es aux graphies latines m\u00e9di\u00e9vales et modernes \u2013 soutenues par des projets de grande envergure comme ECMEN, CREMMA, et HTRomance \u2013 les progr\u00e8s r\u00e9cents dans les mod\u00e8les de langage multimodaux, comme chatGPT-4o, permettent aujourd\u2019hui de transcrire des documents manuscrits de tout type et \u00e9poque. DISTAM a investi dans la transcription des graphies manuscrites non latines, avec un accent particulier sur l\u2019arabe, pour soutenir la recherche en \u00e9tudes ar\u00e9ales [Lucas 2022].<\/p>\n\n\n\n<p>Ces derni\u00e8res ann\u00e9es, plusieurs ensembles de donn\u00e9es pour les manuscrits arabes ont vu le jour, en collaboration avec Calfa (ma\u00eetre d&#8217;\u0153uvre pour la cr\u00e9ation des donn\u00e9es et l\u2019entra\u00eenement des mod\u00e8les) :<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td><strong>Ann\u00e9e<\/strong><\/td><td><strong>Nom<\/strong><\/td><td><strong>Cible<\/strong><\/td><td><strong>Volume de donn\u00e9es<\/strong><\/td><td>D\u00e9p\u00f4t<\/td><\/tr><tr><td>2021<\/td><td>RASAM 1 (Recognition and Analysis of Scripts in Arabic Maghrebi)<\/td><td>Manuscrits \u00c9critures maghr\u00e9bines<\/td><td>3 manuscrits, 300 pages manuellement transcrites<\/td><td><a href=\"https:\/\/github.com\/calfa-co\/rasam-dataset\">https:\/\/github.com\/calfa-co\/rasam-dataset<\/a><\/td><\/tr><tr><td>2022<\/td><td>TARIMA<\/td><td>Manuscrits et lithographies \u00c9critures maghr\u00e9bines<\/td><td>28 documents, 120 pages manuellement transcrites<\/td><td><a href=\"https:\/\/github.com\/calfa-co\/tarima\">https:\/\/github.com\/calfa-co\/tarima<\/a><\/td><\/tr><tr><td>2022-2023<\/td><td>Iskandar<\/td><td>Manuscrits \u00c9critures orientales<\/td><td>5 manuscrits, 297 pages manuellement transcrites<\/td><td><a href=\"https:\/\/gitlab.huma-num.fr\/lipa\/iskandar\">https:\/\/gitlab.huma-num.fr\/lipa\/iskandar<\/a><\/td><\/tr><tr><td>2023<\/td><td>RASAM 2<\/td><td>Manuscrits \u00c9critures maghr\u00e9bines<\/td><td>15 manuscrits, 250 pages manuellement transcrites<\/td><td><a href=\"https:\/\/github.com\/calfa-co\/rasam-dataset\">https:\/\/github.com\/calfa-co\/rasam-dataset<\/a><\/td><\/tr><\/tbody><\/table><figcaption class=\"wp-element-caption\">Mod\u00e8les de reconnaissance ATR pour les manuscrits arabes d\u00e9velopp\u00e9s en collaboration avec Calfa<\/figcaption><\/figure>\n\n\n\n<p>Les donn\u00e9es des projets RASAM 1, RASAM 2, et Iskandar ont \u00e9t\u00e9 produits lors de hackathons collaboratifs sous l\u2019\u00e9gide de DISTAM, avec le soutien de la BULAC. Ces corpus retracent les progr\u00e8s r\u00e9alis\u00e9s en mati\u00e8re de transcription automatique pour les \u00e9critures arabes :<\/p>\n\n\n\n<p>1. <strong>RASAM 1<\/strong> : Projet pionnier dirig\u00e9 par No\u00ebmie Lucas, RASAM 1 a pos\u00e9 les bases pour la transcription des manuscrits maghr\u00e9bins. Trois manuscrits de la BULAC ont \u00e9t\u00e9 utilis\u00e9s comme cas d\u2019\u00e9tude pour illustrer la diversit\u00e9 de l\u2019\u00e9criture maghr\u00e9bine. Les r\u00e9sultats obtenus, avec un taux d\u2019erreur de 4,3% au niveau des caract\u00e8res, d\u00e9montrent que des performances comparables aux graphies latines sont possibles. Ce dataset \u00e9tablit notamment un premier cahier des charges de r\u00e9f\u00e9rence pour la transcription des documents en arabe, afin de maximiser leur transcription [Vidal-Gor\u00e8ne et al. 2021].<\/p>\n\n\n\n<p>2. <strong>TARIMA<\/strong> : Premier projet d\u2019envergure industrielle pour l\u2019HTR en arabe en France, TARIMA a permis la transcription d\u2019un large \u00e9ventail de documents manuscrits et lithographiques (plus de 11 000 pages), d\u00e9sormais disponibles dans la biblioth\u00e8que num\u00e9rique de la BULAC, BINA (<a href=\"https:\/\/www.bulac.fr\/la-bibliotheque-numerique-areale-bina-evolue\">nouveaut\u00e9s<\/a>). Les taux d\u2019erreur vont de 6% pour les microfilms endommag\u00e9s \u00e0 moins de 1% pour les lithographies, prouvant ainsi la polyvalence du mod\u00e8le sur des supports vari\u00e9s.<\/p>\n\n\n\n<p>3. <strong>Iskandar<\/strong> : Men\u00e9 dans le cadre du projet ANR LiPoL, Iskandar explore le transfert des techniques de RASAM aux \u00e9critures orientales, notamment pour le roman d\u2019Alexandre (S\u012brat al-Iskandar). Les taux d\u2019erreur varient de 9% \u00e0 4%, aboutissant \u00e0 la cr\u00e9ation d\u2019un corpus num\u00e9rique arabe de 3 800 pages, avec une pr\u00e9cision qui rapproche ce corpus des normes occidentales en HTR.<\/p>\n\n\n\n<p>4. <strong>RASAM 2<\/strong> : Sous la direction d\u2019Antoine Perrier, RASAM 2 se fonde sur des recommandations r\u00e9centes de Vidal-Gor\u00e8ne et al. pour accro\u00eetre la polyvalence des mod\u00e8les HTR en arabe, au niveau des architectures de mod\u00e8les et nombre de donn\u00e9es [Lucas et al. 2022]. Ce dataset inclut une grande diversit\u00e9 d\u2019\u00e9critures et de qualit\u00e9s de manuscrits. Selon un r\u00e9cent article de Vidal-Gor\u00e8ne et al., RASAM 2 a permis de r\u00e9duire les taux d\u2019erreur de 40 points dans des contextes d\u2019application en-domaine et hors-domaine, atteignant un seuil de pr\u00e9cision in\u00e9dit [Vidal-Gor\u00e8ne et al. 2024].<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Pr\u00e9sentation \u00e0 CHR et Publication de RASAM 2<\/h2>\n\n\n\n<p>En 2024, lors de la conf\u00e9rence Computational Humanities Research (CHR) \u00e0 Aarhus, le dataset RASAM 2 a \u00e9t\u00e9 pr\u00e9sent\u00e9 dans le cadre d\u2019un article intitul\u00e9 Enhancing Arabic Maghribi Handwritten Text Recognition with RASAM 2: A Comprehensive Dataset and Benchmarking [Vidal-Gor\u00e8ne et al. 2024]. L\u2019\u00e9tude s\u2019int\u00e9resse \u00e0 l\u2019applicabilit\u00e9 d\u2019un mod\u00e8le HTR entra\u00een\u00e9 avec RASAM 2 sur des donn\u00e9es vari\u00e9es, illustrant une stabilit\u00e9 accrue des taux d\u2019erreur, ind\u00e9pendamment de la page, de la graphie, du vocabulaire ou de la langue de transcription, par rapport aux pr\u00e9c\u00e9dents mod\u00e8les.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"500\" height=\"265\" src=\"https:\/\/distam.hypotheses.org\/files\/2024\/11\/image-500x265.png\" alt=\"\" class=\"wp-image-15167\" srcset=\"https:\/\/distam.hypotheses.org\/files\/2024\/11\/image-500x265.png 500w, https:\/\/distam.hypotheses.org\/files\/2024\/11\/image-300x159.png 300w, https:\/\/distam.hypotheses.org\/files\/2024\/11\/image-768x406.png 768w, https:\/\/distam.hypotheses.org\/files\/2024\/11\/image.png 964w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><\/figure>\n<\/div>\n\n\n<h2 class=\"wp-block-heading\">Vers une Standardisation et une Extension des Mod\u00e8les HTR pour l\u2019Arabe<\/h2>\n\n\n\n<p>Les corpus RASAM, TARIMA et Iskandar, cumul\u00e9s, forment aujourd\u2019hui une base solide pour le d\u00e9veloppement de mod\u00e8les HTR en graphies arabes. Avec une couverture \u00e9tendue de styles d\u2019\u00e9criture, de p\u00e9riodes et de contextes litt\u00e9raires, l\u2019HTR en arabe atteint d\u00e9sormais une maturit\u00e9 similaire aux graphies latines, ouvrant de nouvelles perspectives pour les chercheurs en \u00e9tudes ar\u00e9ales et les humanit\u00e9s num\u00e9riques en g\u00e9n\u00e9ral.<\/p>\n\n\n\n<p>Ces initiatives, d\u00e9j\u00e0 mises en \u0153uvre dans des contextes r\u00e9els de traitement, illustrent le potentiel consid\u00e9rable de l\u2019automatisation dans la transcription des graphies non latines. Elles marquent une avanc\u00e9e significative pour l\u2019int\u00e9gration des documents arabes dans les corpus num\u00e9riques mondiaux, r\u00e9pondant ainsi \u00e0 un besoin de pr\u00e9servation et d\u2019accessibilit\u00e9 des archives en langue arabe.<\/p>\n\n\n\n<p>La prochaine \u00e9tape r\u00e9side dans l\u2019extension des capacit\u00e9s de reconnaissance textuelle manuscrite (HTR) pour l\u2019arabe au sein de cha\u00eenes de traitement d\u00e9di\u00e9es \u00e0 des cas d\u2019usage sp\u00e9cifiques et authentifi\u00e9s. Cette d\u00e9marche inclut la cr\u00e9ation de nouvelles donn\u00e9es pour les graphies cursives complexes et les documents d\u2019archives, qui repr\u00e9sentent un d\u00e9fi pour rendre les mod\u00e8les plus polyvalents et adaptables. Si la cr\u00e9ation d\u2019un mod\u00e8le g\u00e9n\u00e9rique reste une perspective de long terme, l\u2019utilisation de mod\u00e8les sp\u00e9cialis\u00e9s, comme ceux d\u00e9velopp\u00e9s dans le cadre des projets TARIMA et Iskandar, assure d\u00e9j\u00e0 des taux de reconnaissance \u00e9lev\u00e9s et une fiabilit\u00e9 en production, favorisant ainsi leur adoption dans des environnements vari\u00e9s et chaque jour plus riches.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Pour en savoir plus sur les donn\u00e9es, mod\u00e8les et exp\u00e9rimentations<\/h2>\n\n\n\n<p>BULAC, Usages, besoins et projets de la communaut\u00e9 scientifique (1\/2) &#8211; \u00c9cole de printemps du GIS MOMM (<a href=\"https:\/\/www.youtube.com\/watch?v=J6xZmAnRNMU&amp;t=5534s\">https:\/\/www.youtube.com\/watch?v=J6xZmAnRNMU&amp;t=5534s<\/a>, et <a href=\"https:\/\/www.youtube.com\/watch?v=aeal-T-QHR8&amp;t=8103s\">https:\/\/www.youtube.com\/watch?v=aeal-T-QHR8&amp;t=8103s<\/a>)<\/p>\n\n\n\n<p>Lucas No\u00ebmie. 2022. <em>OCR\/HTR et graphie arabe Les manuscrits arabes \u00e0 l&#8217;heure de la reconnaissance automatique des \u00e9critures<\/em>, 2022. <a href=\"https:\/\/hal.science\/hal-03822459v1\">\u27e8hal-03822459\u27e9<\/a><\/p>\n\n\n\n<p>Vidal-Gor\u00e8ne, C., Lucas, N., Salah, C., Decours-Perez, A., &amp; Dupin, B. 2021, Septembre. &#8220;RASAM\u2013a dataset for the recognition and analysis of scripts in Arabic Maghrebi&#8221;. <em>International Conference on Document Analysis and Recognition<\/em>. Cham: Springer International Publishing. 265-281.<\/p>\n\n\n\n<p>Lucas, N., Salah, C., &amp; Vidal-Gor\u00e8ne, C. 2022. &#8220;New Results for the Text Recognition of Arabic Maghribi Manuscripts&#8211;Managing an Under-resourced Script&#8221;. <em><a href=\"https:\/\/doi.org\/10.48550\/arXiv.2211.16147\">arXiv preprint arXiv:2211.16147<\/a><\/em>.<\/p>\n\n\n\n<p>Vidal-Gor\u00e8ne, C., Salah, C., Lucas, N., Decours-Perez, A., &amp; Perrier, A. 2024, D\u00e9cembre. &#8220;Enhancing Arabic Maghribi Handwritten Text Recognition with RASAM 2: A Comprehensive Dataset and Benchmarking&#8221;. <em>Computational Humanities Research (CHR)<\/em>. &lt;<a href=\"https:\/\/enc.hal.science\/hal-04722622v1\">hal-04722622v1<\/a>&gt;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Pour en savoir plus sur l\u2019interop\u00e9rabilit\u00e9 des m\u00e9triques<\/h2>\n\n\n\n<p>Au sujet du taux d\u2019erreur, Hodel et al., (2021) proposent une grille pour interpr\u00e9ter les scores d&#8217;accuracy, en proposant les seuils suivants :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>| CER &lt; 10% == good (it allows efficient post-processing)<\/li>\n\n\n\n<li>| CER &lt; 5% == very good (errors are usually focused on rare or unknown words)<\/li>\n\n\n\n<li>| CER &lt; 2.5% == excellent (but it is usually only reached when the handwriting is very regular)<\/li>\n<\/ul>\n\n\n\n<p>Hodel, T., Schoch, D., Schneider, C. and Purcell, J. 2021. &#8220;General Models for Handwritten Text Recognition: Feasibility and State-of-the Art. German Kurrent as an Example&#8221;. <em>Journal of Open Humanities Data<\/em>, 7(0). 13. &lt;<a href=\"https:\/\/doi.org\/10.5334\/johd.46\">https:\/\/doi.org\/10.5334\/johd.46<\/a>&gt;.<\/p>\n\n\n\n<p>Voir aussi :&nbsp; <a href=\"https:\/\/alix-tz.github.io\/phd\/posts\/012\/\">https:\/\/alix-tz.github.io\/phd\/posts\/012\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Auteur : Chahan Vidal-Gor\u00e8ne La transcription automatique de textes, qu\u2019il s\u2019agisse de l\u2019OCR (Optical Character Recognition) pour les documents imprim\u00e9s ou de l\u2019HTR (Handwritten Text Recognition) pour les manuscrits, est d\u00e9sormais bien ancr\u00e9e dans le domaine des humanit\u00e9s num\u00e9riques. Elle facilite l\u2019acquisition et la structuration de corpus textuels, atteignant souvent&#46;&#46;&#46;<\/p>\n","protected":false},"author":50380,"featured_media":15143,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_license":"","footnotes":""},"categories":[131,520,467],"tags":[457,323,328,353],"ppma_author":[593],"class_list":["post-15133","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-gt1","category-guides","category-projets-associes","tag-atr","tag-flash-actu","tag-guide","tag-momm"],"authors":[{"term_id":593,"user_id":50380,"is_guest":0,"slug":"distam","display_name":"DISTAM","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/c508739c0b3394f0d5ec8e26acb504dfacc984e04eee47b433b8802f0c2cdd2e?s=96&d=blank&r=g","1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/posts\/15133","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/users\/50380"}],"replies":[{"embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/comments?post=15133"}],"version-history":[{"count":10,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/posts\/15133\/revisions"}],"predecessor-version":[{"id":15194,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/posts\/15133\/revisions\/15194"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/media\/15143"}],"wp:attachment":[{"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/media?parent=15133"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/categories?post=15133"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/tags?post=15133"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/ppma_author?post=15133"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}