3.
Acquisition et numérisation
des données
Introduction
► Les lettres et sciences humaines traversent depuis des années un
bouleversement numérique qui touche à leur épistémologie et à leurs modes
d’investigation : dématérialisation des infrastructures pédagogiques,
disponibilité de données au format numérique et d’outils d’analyse de corpus
de plus en plus performants (étiquetage et fouille de textes, identification
des emprunts littéraires et des similarités stylistiques, génération
automatique de récits fictionnels, traducteurs et résumeurs automatiques,
visualisation, etc.)
Le terme numérique
► Il renvoie aux nouvelles méthodes technoscientifiques de
traitement de l’information par le codage et le calcul à travers
les programmes informatiques.
Typologie des sources numériques
Une typologie des sources numériques semble nécessaire en ce qu’elles sont non seulement complexes, mais
surtout qu’elles peuvent être invisibles à l’œil de l’utilisateur profane d’un ordinateur.
[Link] données numériques
► Les données sont assimilées à de l’information brute qui a besoin d’être « traitée » pour devenir lisible.
► On s’intéresse ici à un niveau où les données ne relèvent plus des signaux électroniques, mais sont déjà
interprétées dans des codes symboliques sous la forme de chiffres ou de lettres, produites par l’usager ou
générées automatiquement par les logiciels dont il fait l’usage. Les données d’usage laissées
implicitement ou explicitement par les utilisateurs des machines numériques (par exemple, l’heure ou la
localisation de la connexion à un réseau, ou encore l’adresse d’un site consulté) sont décrites comme des
« traces numériques »
► Les métadonnées sont des données qui donnent des renseignements à l’ordinateur ou à l’humain sur des
données ; par exemple, les métadonnées d’expédition, de réception, etc. qui accompagnent la
circulation d’un message électronique.
Typologie des sources numériques
[Link] code informatique
► Avant d’être des « sources » pour la recherche, les SN sont composées de
« sources informatiques ». En effet, on appelle « code source » la série
d’instructions textuelles qui prévaut au traitement des données dans les
programmes et les logiciels, de l’exécution d’une action sur les données
(par des algorithmes) à l’affichage d’un contenu (par des instructions
appelées « balisage ») sur les médias informatisés.
Typologie des sources numériques
[Link] documents numériques
► En sciences de l’information, un document est « vu » (une forme et son
support), « lu » (un contenu), et « su » (des normes qui accompagnent sa
reconnaissance) Le document numérique déstabilise ces trois dimensions,
dans la mesure où il ne bénéficie pas de la fixation (même relative) du
support papier : ses formes et supports se modifient à la vitesse de l’
évolution des techniques informatiques et de leur appropriation par les
usages ; son contenu peut être composé, augmenté, modifié par un ou
plusieurs auteurs
Typologie des sources numériques
[Link] artefacts matériels
► Les artefacts matériels servant de supports à la conception et à l’usage des
technologies numériques, les équipements et les instruments informatiques
eux-mêmes participent largement des SN.
► domaine des matériaux structurels des environnements informatiques,
comme les réseaux, leurs câbles, protocoles, etc.
Traitement de données
► Création, numérisation, structuration, enrichissement,
analyse, diffusion et archivage. Pour chacun, nous allons
présenter des outils disponibles (généralement libres
d’accès), l’idée étant de nous focaliser ensuite sur l’un de
ces outils avec un scénario concret sur des données issues
de corpus littéraires.
Annotation
► L'utilisation de corpus annotés et d'outils d'annotation est maintenant
monnaie courante.
► Des méthodes automatisées robustes, capables d'attribuer à chaque unité
d'un texte une forme canonique (lemme) et une indication de sa catégorie
morphosyntaxique (étiquette), développées initialement pour la langue
anglaise, sont depuis quelques années disponibles pour le français.
► Il est donc logique que le développement d'applications en tout genre
travaillant sur des textes prennent de telles informations comme point
d'entrée de leur traitement, depuis la recherche d'information et
l'extraction terminologique, jusqu'au résumé automatique avec un taux de
succès dépassant les 95% sur un texte quelconque.
Annotation
► Ainsi, nous disposons, par exemple, pour un verbe conjugué, de ses
temps, mode, personne et nombre, et pour un pronom personnel, de ses
personne, nombre, genre et cas.
► Les lemmes correspondent, comme dans la totalité de ces approches, à
l'infinitif pour les verbes, au singulier pour les noms, et au singulier
masculin pour les adjectifs.
Lemmatisation
► [Link]
L’OCÉRISATION
► La technique d’OCR (optical character recognition) permet de situer et de
reconnaître les chaînes de caractères dans une image et donc de faire la
conversion des mots qui peuvent ensuite être utilisés pour faire une
recherche plein texte.
► Cette conversion est assurée automatiquement par un logiciel et fait l’
économie de la retranscription manuelle, beaucoup plus chère. Les mots
et chaînes de caractères stockés dans un fichier texte peuvent être
réutilisés pour une nouvelle mise en page, exploités dans une base de
données.
L’OCÉRISATION
► Ce traitement est composé de différentes étapes :
► prétraitements : redressement de la page, suppression des bords ;
► binarisation : conversion en noir et blanc ;
► segmentation : extraction des zones de la page, découpage en lignes, mots,
caractères
► reconnaissance des caractères ;
► reconnaissance des mots (avec des ressources linguistiques).
► Voici la liste des outils et applications :
► Resoomer (résumeurs),
► Transkribus (océrisation),
► Juxta et Text-PAIR (comparaison et alignement),
► Google N-Gram, jsLDA (topic modeling),
► Voyant Tools (distant reading),
► AntConc (concordancier),
► Frantext, Sketch Engine et TXM (analyse de textes et corpus outillés)