0% ont trouvé ce document utile (0 vote)
44 vues80 pages

1 Introduction

Transféré par

nessrineblel.nb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
44 vues80 pages

1 Introduction

Transféré par

nessrineblel.nb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours 1

Introduction

A. Belaïd – LORIA - Nancy

1
Objectif du cours
 Vous aider à comprendre
– Pourquoi on a besoin de reconnaître l’écriture ?
– Comment doit-on procéder pour la décoder ?
– Quelles précautions doit-on prendre pour bien reconnaître ?
– Pourquoi ce n’est pas toujours facile de le faire ?
– Quel résultat doit-on attendre ?
– Les sources à utiliser ?
 Discuter les quelques problèmes que l’on rencontre
quand on traite ce genre de données

DAR © A Belaïd
2
Reconnaissance de l’écriture
 Deux supports
– Ecriture manuelle
− Reconnaissance du script
– Tri postal, reconnaissance automatique de montants de chèques
– Identification/vérification de la signature (forensics)
– Identification/vérification du scripteur

– Document
− Reconnaissance de la forme et du contenu
– Indexation de flux de documents entrants : courriers, faxes,
commandes…
– Archivage, datation de documents historiques
– Analyse de plans cadastraux, schémas mécaniques, formulaires,
etc.

 Applications différentes, mais


– méthodes et difficultés communes : connaissances métier
DAR © A Belaïd
3
Historique : un siècle d’évolution
Maturité
Lecture à la volée,
Prix Documents Traitement de flux
hist., OCR
multilingue,
Stylo intelligent

Fomulaires
1er lecteur manuscrits
adres.
Postales,
formulaires

OCR en
industrie

Brevets
OCR : braille

1900 1950 1965 1980 2000 2016


DAR © A Belaïd
4
Manuscrit vs Imprimé
Données Applications

Connectées, Interfaces
cursives, libres Manuscrit Postales
Chèques
Approches Formulaires

Apprentissage
Reconnaissance
Analyse contextuelle

Séparées, isolées, Imprimé Lecture automatique


Police, fonte Rétro conversion
Layout Translitération…

DAR © A Belaïd
5
Manuscrit
 Différents facteurs
Mode d’acquisition

Pen-down Pen-up

Applications stylo
Interfaces, mobiles, PDA
On-line

Off-line
Courier, Chèques,
Formulaires
DAR © A Belaïd
6
Manuscrit
 D’autres facteurs
Disposition spatiale des caractères

DAR © A Belaïd
7
Manuscrit
 D’autres facteurs

Nb de scripteurs Type/style Ecriture

Mono Multi Omni Fonte Police Style Scripteur

Taille du Vocabulaire Type du vocabulaire

Limité Etendu Ouvert Static Dynamique


(< 100) < 10 000  10 000 Non modifiable Enrichi durant le
pendant le traitement
traitement

DAR © A Belaïd
8
Introduction
Performances : critères influençant la qualité

Nb de scripts

omni

multi

mono Taille lexique


contrainte réduite grande

Libre

Qualité écriture

DAR © A Belaïd
9
Manuscrit : méthodes

Capture &
Prétraitement

Extraction de Haut niveau: boucles, hampes, jambages, etc.


caractéristiques Bas niveau: densité, contours, pixels

Représentation Structurelle (primitives)


& classification Statistique / stochastique

Post-traitement Contraintes lexicales, règles syntaxiques, langage

DAR © A Belaïd
Manuscrit : méthodes
Modèle discriminant
Globale

a b ... z
Learning Recognition
Chemin discriminant

Analytique

Pré-segmentation Interne Fenêtre glissante

DAR © A Belaïd
Manuscrit : codage

Topologique
parametrisation Modèle
Zonale continue continu

Géométrique VQ Modèle discret

Hampe 0 0 0 1 0 0 0


Jambage 1 0 0 0 0 1 0
Barre T               VQ
0 0 0 0 0 1 0
Boucle        
1 0 1 0 1 1 0

DAR © A Belaïd
Manuscrit : stratégies de segmentation

DAR © A Belaïd
13
Manuscrit : stratégies de reconnaissance
Dirigé par le
Non dirigé
lexique
Image par le lexique

Feature Extraction Segmentation


Feature Extraction

Segmentation Symbol recognition


Feature Extraction
String reconstruction Context
Context

Word recognition Verification in


Dictionary

List of possible solutions

DAR © A Belaïd
14
Document
• Mode d’acquisition : toujours off-line : scanner/camera
• Layout : variable dépendant de la classe
Manhattan Mosaic Zonal Non linear

Font style Number Mono, Multi or Omni-font

DAR © A Belaïd
15
Document
 Objectifs de reconnaissance
– Nous avons besoin d'accéder à un ensemble de
"documents"
− Archivage?
− Indexation?
– Souvent, on a des collections massives et hétérogènes
– Différentes langues
– Différentes présentations
– Différentes sources
– Nous avons de la chance si les métadonnées sont
consistantes et uniformes

DAR © A Belaïd
16
Document
 Pourquoi acquérir des documents image ?
– Solution sans papier
− Transfert efficace
− Organisation
− Commodité
– Accès à une variété de contenus
− Lecteur universel - courrier électronique, pièces jointes,
feuilles de calcul
− Pas besoin d'applications originales
– Détecter la falsification : changement du contenu ?
− Plus facile à certifier?
− Authentifier le document

DAR © A Belaïd
17
Contexte – Objectifs de recherche
Le passé récent Aujourd’hui

Applications ciblées Problèmes ouverts : courrier libre


Données limitées Flux continu
Classes connues Classes évolutives
Classes figées Pas de connaissance a priori
Volumétrie faible/moyenne Volumétrie importante

Modèles statiques Modèles incrémentaux

Beaucoup de paramètres Paramétrage adaptatif

Bases de données locales Bases de données publiques

Evaluation subjective Métriques pour l’évaluation

Journée Département D4 – 25/03/2016 2


Document : comment acquérir ?
 Balayage?
– Haute vitesse, automatisé, multiformes - livres, etc.
 Photocopieurs numériques
– Mémoire d'entreprise
 Sortie d'application
– Imprimer comme l'image
– Conversion de masse

 Appareils photo?
– Téléphones portables?
– QipIt, ScanR, Hotcard
Tous ont des implications sur l'utilisation

DAR © A Belaïd
19
Document : qu’est ce qu’une image ?

 Représentation pixel de la carte


d'intensité
 Pas de "contenu" explicite, que des
chiffres les uns à côté des autres
 L'analyse d'image
– Tente d'imiter le comportement visuel
humain
– Tire des conclusions, formule des 10 27 33 29
hypothèses et vérifie
27 34 33 54
Analyse d’image
Utiliser les techniques adéquates pour représenter le 54 47 89 60
contenu
Transformer les requêtes sémantiques en
25 35 43 9
"caractéristiques d'image"
Couleur, forme, texture ...
Relations spatiales DAR © A Belaïd
20
Image de document
 Une collection de points appelés "pixels"
– Disposés dans une grille appelée "bitmap"
 Pixels souvent binaires (noir, blanc)
– Mais l'échelle de gris ou la couleur est parfois nécessaire
 300 points par pouce (ppp) donne les meilleurs
résultats
– Mais les images sont assez grandes (1 Mo par page)
– Les télécopies sont normalement de 100 à 200 ppp
 Habituellement stocké en format TIFF ou PDF

Pourtant, nous voulons pouvoir les traiter comme des


fichiers texte!

© D. Doermann DAR © A Belaïd


Base, dataset…
 Collecte d'images numérisées
 Besoin d'être disponible pour l'indexation et la
récupération, l'abstraction, le routage, l'édition, la
diffusion, l'interprétation…

© D. Doermann DAR © A Belaïd


© D. Doermann
D’autres “documents”

© D. Doermann DAR © A Belaïd


© D. Doermann
© D. Doermann
Indexation d’images de pages
(Schéma de conversion traditionnel)

Page Représentation
Document Image de la structure
Segmentation
Scanner de la page

Régions
texte
Caractères ou
Optical Character Codes de formes
Recognition

© D. Doermann DAR © A Belaïd


Analyse de l’image du document
 Schéma général
– Acquisition de l’image – digitalisation
– Prétraitement
– Extraction de paramètres
– Classification
 Tâches spécifiques
– Analyse de la structure physique et logique de la page
– Classification de zones
– Identification de la langue
– Traitement spécifique d’une zone
− Reconnaissance
− Vectorisation

© D. Doermann DAR © A Belaïd


Analyse de l’image du document
 Ce que vous devez faire avant de pouvoir traiter les
images sous forme de "documents électroniques" ....
– Analyse de l'image du document
– Décomposition de la page
– Reconnaissance optique de caractères
– Indexation traditionnelle avec conversion
– Matrice de confusion
– Codes de forme
– Faire des choses sans conversion
– Dépistage, classification, résumé,
– Repérage des mots clés, etc.

© D. Doermann DAR © A Belaïd


Query
Documents

Layout Ranked
Similarity Results

Images
w/Text
Genre Class
Classification Results

Page Document Handprint Line


Enhancement
Classification Images Detection

Hand
Signature
Page Detection
Noise
Decomposition

Images Zone
Machine Segmentation
w/o Text Labeling

Stamp and Logo


Graphics Detection

< .5 .25-3 1-3 1-3


Temps de traitement necessaire en secondes

© D. Doermann
Pourquoi l’analyse de document
est difficile ?
 Plusieurs raisons
– Tableau 2D de “valeurs”
– Représente un langage symbolique
– Beaucoup de variations dans les symboles

AaAAAAAAAA
– 3-4 fois plus grand que des images normales
– et ça c’est uniquement le cas de documents texte imprimé
latin !

© D. Doermann DAR © A Belaïd


Analyse de page
 En supposant regarder que le texte
– Correction d'obliquité
− Basé sur la recherche de l'orientation principale des lignes
– Détection d'une zone d'image et de texte
− Basé sur la texture et l'orientation dominante
– Classification structurelle
− Infirmer la structure logique de l'agencement physique
– Classification de la région textuelle
− Titre, auteur, en-tête, bloc de signature, etc.

© D. Doermann DAR © A Belaïd


Segmentation physique de la page
 Couches d’information
– Un document se compose de plusieurs couches, telles que l'écriture manuscrite,
le texte imprimé par machine, les motifs d'arrière-plan, les tableaux, les chiffres,
le bruit, etc.

© D. Doermann DAR © A Belaïd


Segmentation de la page
 Généralement basée sur la proximité spatiale
– Espaces blancs
– Marges
– Différences de type de contenu
 Peut être très sensible au bruit
 Distinguer entre
– Top Down
− On découvre en décomposant
– Bottom up
− On rassemble ce qu’on connaît

© D. Doermann DAR © A Belaïd


Détection d’objets

© D. Doermann DAR © A Belaïd


Detection de régions de texte

© D. Doermann
Printed text
Handwriting
Un exemple plus complexe Noise

Avant post-traitement par MRF Après post-traitement par MRF


MRF: Markov Random Field: prend en compte le contexte
© D. Doermann
Application à la segmentation de la page

Avant réhaussement Après réhaussement

© D. Doermann DAR © A Belaïd


Identification de la langue
– Détection de l’inclinaison indépendamment de la langue
– Accommoder écriture horizontale et verticale
– Reconnaissance de classe de script
– Scripts asiatiques ont des caractères sous forme de blocs
– Les scripts connectés ne peuvent pas être segmentés
facilement
– Identification des langues
– Les statistiques de forme fonctionnent bien pour les langues
occidentales
– Les classificateurs concurrents fonctionnent pour les langues
asiatiques
Qu’en est-il du manuscrit ?

© D. Doermann DAR © A Belaïd


Optical Character Recognition
 Approche d'appariement de modèles
– Approche standard dans les systèmes commerciaux
– Segmenter les caractères individuels
– Reconnaître en utilisant un classificateur de type réseau
neuronal
 Approche du modèle de Markov caché
– Approche expérimentale développée à BBN
– Segmenter en tranches de sous-caractères
– Lookahead limité pour trouver le meilleur choix de
caractères
– Utile pour les scripts connectés (par exemple, l’Arabe)

© D. Doermann DAR © A Belaïd


Problèmes de précision des OCR
 Erreurs de segmentation de caractères
– En anglais, la segmentation change souvent "m" en "rn"
 Confusion de caractères
– Les caractères avec des formes semblables sont souvent
confondus
 OCR sur les copies est bien pire que sur les originaux
– coupure de caractère, fission, pliage
 Les polices peu communes peuvent causer des
problèmes
– Si elles ne sont pas utilisées pour l’entrainement du réseau
neuronal

© D. Doermann DAR © A Belaïd


Amélioration de la précision des
OCRs
 Prétraitement de l'image
– Morphologie mathématique pour la floraison et le fractionnement
– Particulièrement important pour les images dégradées
 Le «vote» entre plusieurs moteurs OCR
– Les systèmes individuels dépendent de données de formation
spécifiques
 L'analyse linguistique peut corriger certaines erreurs
– Utilisez les statistiques de confusion, les listes de mots, la
syntaxe, ...
– Mais des erreurs plus nocives pourraient être introduites

© D. Doermann DAR © A Belaïd


Vitesse des OCR
 Les réseaux neuronaux prennent environ 10 secondes
par page
– Les modèles de Markov cachés sont plus lents

 Le vote peut améliorer la précision


– Mais à une vitesse de pénalité substantielle

 Facile à accélérer les choses avec plusieurs machines


– Par exemple, par traitement par lots - utilisant des ordinateurs
de bureau la nuit

© D. Doermann DAR © A Belaïd


Problème : analyse logique de la
page (ordre de lecture)
 Peut être difficile à deviner dans certains cas
– Colonnes de journaux, légendes, appendices, ...
 Parfois, il existe des guides explicites
– «Suite à la page 4» (mais la page 4 peut être grande!)
 Les repères structurels peuvent aider
– La colonne 1 pourrait continuer à la colonne 2
 L'analyse de contenu est également utile
– Statistiques de cooccurrence de mots, analyse de syntaxe

© D. Doermann DAR © A Belaïd


Document : traitement
 Intégration de la connaissance métier
– Un document est destiné à véhiculer un message
– Pour faciliter la compréhension, des efforts ont été faits pour
uniformiser les documents avec un certain nombre de
conventions :
− Sur la langue, les formes de caractères, la typographie (style,
police, mise en page ...), la structure des documents
− Selon la fonction du document, il existe différentes
conventions d'écriture et de présentation
− Besoin de reconnaître le type de document
− Peu de travaux sur l'identification du type de document pour
appliquer une reconnaissance appropriée
– Le critère de choix est important !

© D. Doermann DAR © A Belaïd


45
Exemple 1:
Choix d’un critère pour la séparation texte/image

 Critère : un texte est composé d’alignements de caractères

Error segmentation
Erreurs de segmentation

 Le manque de familiarité avec les difficultés réelles


DAR © A Belaïd
© F. Lebourgeois 46
Exemple 2 :
Séparation Texte / Formules

 Critère : une formule est composée de blocs isolés du texte

Critère insuffisant

© F. Lebourgeois DAR © A Belaïd


47
Exemple 2 :
Séparation Texte / Formules
 Critère 2 : Une formule est située dans le texte parce qu'elle
est constituée :
– De blocs de texte isolés
– Ou d’éléments du texte autour de marques comme ('=', '<', '[', ']', des
chiffres, des lettres grecques, des mots clés comme 'série', 'fonction' ...)
– Ou de composantes spécifiques généralement dans les grandes formules

Critère suffisant

© F. Lebourgeois DAR © A Belaïd


48
Exemple 3 :
Séparation Texte / Graphique

 Critère : Le texte est composé de composantes connexes


éloignées des longs traits

Critère suffisant Critère insuffisant

© F. Lebourgeois DAR © A Belaïd


49
Exemple 4 :
Séparation Texte /Vidéo

 Critère : Le texte est formé de composantes connexes


alignées de la même couleur qui apparaissent sur plusieurs
images consécutives

Critère suffisant Critère insuffisant


© F. Lebourgeois DAR © A Belaïd
50
Extraction d’information

The structure

Typographical context

Textual context
Exclusive: The CIA’s War in Iraq OCR
Syntactical context
CIA War Iraq
THE Warm Iraq

Logical context
text,abstract,author,reference,n° page,photo,title...

General context
Summary? Letter? Book? Journal paper?
© F. Lebourgeois DAR © A Belaïd
51
Processus d’extraction d’information
 Utiliser autant d'informations que possible à tous les
niveaux
 Problème : l'information est inter-dépendante !
Typographical
context

Textual Syntactical
context context

General Logical
context structure
Logical
context

© F. Lebourgeois DAR © A Belaïd


Approche dépendant du niveau
sémantique
 Descendante : de la connaissance aux données
 Ascendante : des données à la connaissance
 Mixte: aller-retour entre niveaux
Approche descendante
Culture générale
Connaissances particulières sur un document
Structure logique et fonctionnelle
Reconnaissance sémantique
Reconnaissance de texte adaptée
Recognition
Syntaxe
Reconnaissance de caractères
Typographie
Structure physique
Approcha ascendante Segmentation
Pixels
© F. Lebourgeois DAR © A Belaïd
Approche utilisant des cycles
perceptifs

Document model

Pattern grouping Coherence


in objects evaluation
Internal External
Hypothesis Hypothesis
emission validation
Pattern Questionning of
recognition the segmentation

Research of
Segmentation characteristic
Images elements of an object

© F. Lebourgeois DAR © A Belaïd


Retrieval du texte d’OCR
 Nécessite des méthodes d'indexation robustes
 Les méthodes statistiques avec de grands documents
fonctionnent le mieux
 Évaluations clés
– Le succès de la ROC de haute qualité (Croft et al 1994, Taghva
1994)
– Succès limité pour un OCR de mauvaise qualité (1996 TREC,
UNLV)
– Clustering réussie pour une précision> 85% (Tsuda et al, 1995)

© F. Lebourgeois DAR © A Belaïd


N-Grams
 Méthode statistique puissante et peu coûteuse pour
caractériser les populations
 Approche
– Diviser le document en paires de caractères n : échoue
– Utiliser des représentations d'indexation traditionnelles pour
effectuer des analyses
– "DOCUMENT" -> DOC, OCU, CUM, UME, MEN, ENT
 Avantages
– Statistiquement robustes à un petit nombre d'erreurs
– Indexation rapide et récupération
– Fonctionne entre 70% et 85% de précision des caractères
lorsque l'IR traditionnelle échoue

© F. Lebourgeois DAR © A Belaïd


Matching avec les erreurs OCR
 Au-dessus de 80% de précision des caractères,
utilisez des mots
– Avec correction linguistique
 Entre 75% et 80%, utiliser des n-grammes
– Avec n un peu plus faible que d'habitude
– Et peut-être avec des statistiques de confusion de caractère
 En dessous de 75%, utilisez des codes de forme de
longueur de mot

© F. Lebourgeois DAR © A Belaïd


Traitement d’images de texte

 Les caractéristiques
– Ne nécessite pas de coûteuses opérations
d’OCR / Conversion
– Applicable aux applications de filtrage
– Peut être plus résistant au bruit
 Inconvénients possibles
– Le domaine d'application peut être très limité
– Le temps de traitement peut être un problème
si l'indexation est autrement requise

© F. Lebourgeois DAR © A Belaïd


Keyword Spotting
Techniques:
– Work Shape/HMM - (Chen et al, 1995)
– Word Image Matching - (Trenkle and Vogt, 1993; Hull et al)
– Character Stroke Features - (Decurtins and Chen, 1995)
 Shape Coding - (Tanaka and Torii; Spitz 1995; Kia, 1996)

Applications:
– Filing System (Spitz - SPAM, 1996)
– Numerous IR
– Processing handwritten documents
Evaluation formelle
– Scribble vs. OCR (DeCurtins, SDIUT 1997)

© F. Lebourgeois DAR © A Belaïd


Codage de forme (shape coding)
 Approche
– Utilisation de descripteurs génériques de caractères
– Utiliser le pouvoir du langage pour résoudre l'ambiguïté
– Carte Caractère basé sur les caractéristiques de la forme, y
compris les ascendants, les descendants, la ponctuation et
le caractère avec des trous
a aeo
x cmnrsuvwxyz
A fhklt
i Ij;
b bd
g gpq

© F. Lebourgeois DAR © A Belaïd


Applications supplémentaires
 Manuscrits d'archives manuscrits
– (Manmatha, 1997)
 Classification de pages
– (Decurtins et Chen, 1995)
 Correspondance des enregistrements manuscrits
– (Ganzberger et coll., 1994)
 Extraction des titres
– Compression d'images de documents (UMD, 1996-1998)

© F. Lebourgeois DAR © A Belaïd


Une application industrielle

Traitement des formulaires


Le traitement des formulaires
 Aujourd’hui, un vrai marché
– Concerne toutes les administrations et les services
− qui manipulent de l’information de masse
– salaires, factures…
– plusieurs milliers par jour
– Il existe des bases métiers
− très riches et très spécifiques
– plusieurs millions d’enregistrements
− qui peuvent aider au traitement automatique

© V. Poulain D’Andecy DAR © A Belaïd 63


L’analyse du marché
les clients potentiels

© V. Poulain D’Andecy 64
Analyse du marché
Des spécialistes de la dématérialisation

Acteur Document Produit Traitement

«DOCUMENTS for
Readsoft Facture
Invoice»
Capture jusqu’à transformation

« InputAccel for Tr. Automatique de facture –


Captiva Facture
Invoices » extraction d’information
Document Classification document - extraction
Kofax administratif
«Xtrata pro»
de données
~ 5 milliards de chèques traités en
Chèque, remise,
BancTec titre…
«eFIRST Clearing» France chaque année, 50% avec
BancTec

IRIS Courrier «DocuTec» Rétroconversion, Indexation

Lecture automatique de champs


A2IA Chèque «CheckReader»
imprimés et manuscrits

© V. Poulain D’Andecy 65
 Plusieurs applications administratives
– Dématérialisation des salles courriers : "Digital mailroom"
 Traitement des flux entrants
– Traitement automatique des moyens de paiement
 Reconnaissance de montants : chèques, titres, traites…
– Traitement de factures
 Extraction d’identifiants
– Gestion électronique de documents (contenus)
 Circulation, diffusion, traçabilité, sécurisation, etc.

© V. Poulain D’Andecy DAR © A Belaïd 66


Problème du courrier
Le courrier met en interaction tous les départements de l’entreprise …
Le client envoie une commande, celle-ci fait un circuit…
La commande peut arriver par téléphone ou en complément…

70% Centre
d’appel

Gestion
Archives
fichier client
Plaintes Client

30%
Gestion des
Ressources Département contrats
humaines d’achat fournisseurs

© V. Poulain D’Andecy
Traitement du courrier : un processus
difficile
► Le courrier n’est jamais le
même, le format change … Ceci
a une influence sur le process

► Il faut disposer d’une


infrastructure d’exception et
d’outils performants …

► L'efficacité des services


dépend de la rapidité de la
distribution du courrier

► La distribution sous
forme papier n’est pas
efficace, la traçabilité
des documents est
difficile
© V. Poulain D’Andecy
Le traitement électronique du courrier :
permet au système de l’insérer correctement dans la boucle

Plus clair pour sa distribution entre les services : coût, traçabilité


Centre d’appel

Service des
70%
ressources Department
humaines achats

70% Réclamations
clients Services
clients

30%
Système
d’information
DMS

Les infos sont dans l’IS, le DMS les donne aux process : rapidité
© V. Poulain D’Andecy
Le courrier est analysé en utilisant les
connaissances de l’entreprise : elle essaie de le classer
automatiquement, sinon, un vidéocodage est opéré
Supervise Optimise

Capture FreeProcess Vérifie Contrôle Exporte

Base de connaissances
Papier

Circulation du
document
et validation

Fax Capture du Classification


mail électronique automatique et ERP
distribution
Scan du
mail papier

Email
Video-assistance Indexation Impression,
classification automatique visualisation
et lecture

© V. Poulain D’Andecy
Traitement du texte : 2 phases :

>>> Indexation pour repérer >>> Lecture ciblée >>>

© V. Poulain D’Andecy Pas d’intelligence, uniquement information métier


Les technologies utilisées

Technologies IMAGE Technologies DATA


Image processing, rotation Index Extraction
OCR, ICR, IWR Form Processing
Full-text analysis

Technologies DOCUMENT
Shape Classification
Content Classification
Text Mining

© V. Poulain D’Andecy 72
Combinaison de tecnhniques

© V. Poulain D’Andecy
Autorotation :
Par l’orientation des lignes ou l’emplacement des hampes et
jambages

Par l’orientation UP ?
des lignes

Par l’emplacement
des hampes
et jambages

PORTRAIT

Down ?
Localise les zones texturées et enlève les points : technique run length (transitions)
Différence ente OCR et ICR :

Lit la date mais se trompe


Permet de localiser le sans contexte : 1 et / sont
mot “date”, mais ne proches, la connaissance
peut pas lire le reste de “date” lui permet de
corriger

25 / 0 5 /04
Reference
Date : :

2510 5104

© V. Poulain D’Andecy
Français ou anglais ? Caractères collés. Le ti ressemble au h ?

Problèmes
Segmentation des mots ?
Segmentation de caractères
Pas de segmentation
Pas de segmentation

Lien avec des dictionnaires


Petit, moyen, large ?
Fermé ou ouvert ?

Moyen & Ouvert

© V. Poulain D’Andecy
Extraction de données

Structurées Semi-structurées Non structurées

Méthode des masques Méthodes plein texte


(exp.rég / text mining)

© V. Poulain D’Andecy
Conclusion sur les formulaires
Évolution des technologies
Understand ...

Deduce …

Learn …
DB

Read … Samples
heterogenous Natural
Volume Language
Multi-criteria
See … Classification
Shape/Text
Classification
Full-Text
Hand
Checks Written
OCR ICR
Barcode

© V. Poulain D’Andecy
Conclusion sur la READ
 3 périodes
– Un passé pessimiste
− Rien ne fonctionnait
− Les OCRs étaient voués à l’échec
− Pas d’horizon pour le manuscrit
– Un présent satisfaisant
− Entrée dans le monde industriel
− On peut faire de la masse rapidement
− On a noué des liens avec le NLP, le Data Mining (ce n’est plus
une thématique isolée, mais un élément d’un grand ensemble)
– Un futur prometteur
− Capable de répondre à beaucoup de défis dans des
problématiques réelles : numérisation du patrimoine ancien
− OCR : Élément essentiel des moteurs de recherche
− Domaine de recherche ouvert...

DAR © A Belaïd 80

Vous aimerez peut-être aussi