1 Introduction
1 Introduction
Introduction
1
Objectif du cours
Vous aider à comprendre
– Pourquoi on a besoin de reconnaître l’écriture ?
– Comment doit-on procéder pour la décoder ?
– Quelles précautions doit-on prendre pour bien reconnaître ?
– Pourquoi ce n’est pas toujours facile de le faire ?
– Quel résultat doit-on attendre ?
– Les sources à utiliser ?
Discuter les quelques problèmes que l’on rencontre
quand on traite ce genre de données
DAR © A Belaïd
2
Reconnaissance de l’écriture
Deux supports
– Ecriture manuelle
− Reconnaissance du script
– Tri postal, reconnaissance automatique de montants de chèques
– Identification/vérification de la signature (forensics)
– Identification/vérification du scripteur
– Document
− Reconnaissance de la forme et du contenu
– Indexation de flux de documents entrants : courriers, faxes,
commandes…
– Archivage, datation de documents historiques
– Analyse de plans cadastraux, schémas mécaniques, formulaires,
etc.
Fomulaires
1er lecteur manuscrits
adres.
Postales,
formulaires
OCR en
industrie
Brevets
OCR : braille
Connectées, Interfaces
cursives, libres Manuscrit Postales
Chèques
Approches Formulaires
Apprentissage
Reconnaissance
Analyse contextuelle
DAR © A Belaïd
5
Manuscrit
Différents facteurs
Mode d’acquisition
Pen-down Pen-up
Applications stylo
Interfaces, mobiles, PDA
On-line
Off-line
Courier, Chèques,
Formulaires
DAR © A Belaïd
6
Manuscrit
D’autres facteurs
Disposition spatiale des caractères
DAR © A Belaïd
7
Manuscrit
D’autres facteurs
DAR © A Belaïd
8
Introduction
Performances : critères influençant la qualité
Nb de scripts
omni
multi
Libre
Qualité écriture
DAR © A Belaïd
9
Manuscrit : méthodes
Capture &
Prétraitement
DAR © A Belaïd
Manuscrit : méthodes
Modèle discriminant
Globale
a b ... z
Learning Recognition
Chemin discriminant
Analytique
DAR © A Belaïd
Manuscrit : codage
Topologique
parametrisation Modèle
Zonale continue continu
DAR © A Belaïd
Manuscrit : stratégies de segmentation
DAR © A Belaïd
13
Manuscrit : stratégies de reconnaissance
Dirigé par le
Non dirigé
lexique
Image par le lexique
DAR © A Belaïd
14
Document
• Mode d’acquisition : toujours off-line : scanner/camera
• Layout : variable dépendant de la classe
Manhattan Mosaic Zonal Non linear
DAR © A Belaïd
15
Document
Objectifs de reconnaissance
– Nous avons besoin d'accéder à un ensemble de
"documents"
− Archivage?
− Indexation?
– Souvent, on a des collections massives et hétérogènes
– Différentes langues
– Différentes présentations
– Différentes sources
– Nous avons de la chance si les métadonnées sont
consistantes et uniformes
DAR © A Belaïd
16
Document
Pourquoi acquérir des documents image ?
– Solution sans papier
− Transfert efficace
− Organisation
− Commodité
– Accès à une variété de contenus
− Lecteur universel - courrier électronique, pièces jointes,
feuilles de calcul
− Pas besoin d'applications originales
– Détecter la falsification : changement du contenu ?
− Plus facile à certifier?
− Authentifier le document
DAR © A Belaïd
17
Contexte – Objectifs de recherche
Le passé récent Aujourd’hui
Appareils photo?
– Téléphones portables?
– QipIt, ScanR, Hotcard
Tous ont des implications sur l'utilisation
DAR © A Belaïd
19
Document : qu’est ce qu’une image ?
Page Représentation
Document Image de la structure
Segmentation
Scanner de la page
Régions
texte
Caractères ou
Optical Character Codes de formes
Recognition
Layout Ranked
Similarity Results
Images
w/Text
Genre Class
Classification Results
Hand
Signature
Page Detection
Noise
Decomposition
Images Zone
Machine Segmentation
w/o Text Labeling
© D. Doermann
Pourquoi l’analyse de document
est difficile ?
Plusieurs raisons
– Tableau 2D de “valeurs”
– Représente un langage symbolique
– Beaucoup de variations dans les symboles
AaAAAAAAAA
– 3-4 fois plus grand que des images normales
– et ça c’est uniquement le cas de documents texte imprimé
latin !
© D. Doermann
Printed text
Handwriting
Un exemple plus complexe Noise
Error segmentation
Erreurs de segmentation
Critère insuffisant
Critère suffisant
The structure
Typographical context
Textual context
Exclusive: The CIA’s War in Iraq OCR
Syntactical context
CIA War Iraq
THE Warm Iraq
Logical context
text,abstract,author,reference,n° page,photo,title...
General context
Summary? Letter? Book? Journal paper?
© F. Lebourgeois DAR © A Belaïd
51
Processus d’extraction d’information
Utiliser autant d'informations que possible à tous les
niveaux
Problème : l'information est inter-dépendante !
Typographical
context
Textual Syntactical
context context
General Logical
context structure
Logical
context
Document model
Research of
Segmentation characteristic
Images elements of an object
Les caractéristiques
– Ne nécessite pas de coûteuses opérations
d’OCR / Conversion
– Applicable aux applications de filtrage
– Peut être plus résistant au bruit
Inconvénients possibles
– Le domaine d'application peut être très limité
– Le temps de traitement peut être un problème
si l'indexation est autrement requise
Applications:
– Filing System (Spitz - SPAM, 1996)
– Numerous IR
– Processing handwritten documents
Evaluation formelle
– Scribble vs. OCR (DeCurtins, SDIUT 1997)
© V. Poulain D’Andecy 64
Analyse du marché
Des spécialistes de la dématérialisation
«DOCUMENTS for
Readsoft Facture
Invoice»
Capture jusqu’à transformation
© V. Poulain D’Andecy 65
Plusieurs applications administratives
– Dématérialisation des salles courriers : "Digital mailroom"
Traitement des flux entrants
– Traitement automatique des moyens de paiement
Reconnaissance de montants : chèques, titres, traites…
– Traitement de factures
Extraction d’identifiants
– Gestion électronique de documents (contenus)
Circulation, diffusion, traçabilité, sécurisation, etc.
70% Centre
d’appel
Gestion
Archives
fichier client
Plaintes Client
30%
Gestion des
Ressources Département contrats
humaines d’achat fournisseurs
© V. Poulain D’Andecy
Traitement du courrier : un processus
difficile
► Le courrier n’est jamais le
même, le format change … Ceci
a une influence sur le process
► La distribution sous
forme papier n’est pas
efficace, la traçabilité
des documents est
difficile
© V. Poulain D’Andecy
Le traitement électronique du courrier :
permet au système de l’insérer correctement dans la boucle
Service des
70%
ressources Department
humaines achats
70% Réclamations
clients Services
clients
30%
Système
d’information
DMS
Les infos sont dans l’IS, le DMS les donne aux process : rapidité
© V. Poulain D’Andecy
Le courrier est analysé en utilisant les
connaissances de l’entreprise : elle essaie de le classer
automatiquement, sinon, un vidéocodage est opéré
Supervise Optimise
Base de connaissances
Papier
Circulation du
document
et validation
Email
Video-assistance Indexation Impression,
classification automatique visualisation
et lecture
© V. Poulain D’Andecy
Traitement du texte : 2 phases :
Technologies DOCUMENT
Shape Classification
Content Classification
Text Mining
© V. Poulain D’Andecy 72
Combinaison de tecnhniques
© V. Poulain D’Andecy
Autorotation :
Par l’orientation des lignes ou l’emplacement des hampes et
jambages
Par l’orientation UP ?
des lignes
Par l’emplacement
des hampes
et jambages
PORTRAIT
Down ?
Localise les zones texturées et enlève les points : technique run length (transitions)
Différence ente OCR et ICR :
25 / 0 5 /04
Reference
Date : :
2510 5104
© V. Poulain D’Andecy
Français ou anglais ? Caractères collés. Le ti ressemble au h ?
Problèmes
Segmentation des mots ?
Segmentation de caractères
Pas de segmentation
Pas de segmentation
© V. Poulain D’Andecy
Extraction de données
© V. Poulain D’Andecy
Conclusion sur les formulaires
Évolution des technologies
Understand ...
Deduce …
Learn …
DB
Read … Samples
heterogenous Natural
Volume Language
Multi-criteria
See … Classification
Shape/Text
Classification
Full-Text
Hand
Checks Written
OCR ICR
Barcode
© V. Poulain D’Andecy
Conclusion sur la READ
3 périodes
– Un passé pessimiste
− Rien ne fonctionnait
− Les OCRs étaient voués à l’échec
− Pas d’horizon pour le manuscrit
– Un présent satisfaisant
− Entrée dans le monde industriel
− On peut faire de la masse rapidement
− On a noué des liens avec le NLP, le Data Mining (ce n’est plus
une thématique isolée, mais un élément d’un grand ensemble)
– Un futur prometteur
− Capable de répondre à beaucoup de défis dans des
problématiques réelles : numérisation du patrimoine ancien
− OCR : Élément essentiel des moteurs de recherche
− Domaine de recherche ouvert...
DAR © A Belaïd 80