Document PDF

Le document décrit différentes méthodes et outils pour le traitement numérique de documents, notamment l'annotation, la lemmatisation, l'océrisation et des outils pour la création, la numérisation, l'analyse et la diffusion de données.

Transféré par

imenhadil29

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

34 vues15 pages

Document PDF

Transféré par

imenhadil29

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

3.

Acquisition et numérisation
des données
Introduction

► Les lettres et sciences humaines traversent depuis des années un

bouleversement numérique qui touche à leur épistémologie et à leurs modes
d’investigation : dématérialisation des infrastructures pédagogiques,
disponibilité de données au format numérique et d’outils d’analyse de corpus
de plus en plus performants (étiquetage et fouille de textes, identiﬁcation
des emprunts littéraires et des similarités stylistiques, génération
automatique de récits ﬁctionnels, traducteurs et résumeurs automatiques,
visualisation, etc.)
Le terme numérique

► Il renvoie aux nouvelles méthodes technoscientifiques de

traitement de l’information par le codage et le calcul à travers
les programmes informatiques.
Typologie des sources numériques
Une typologie des sources numériques semble nécessaire en ce qu’elles sont non seulement complexes, mais
surtout qu’elles peuvent être invisibles à l’œil de l’utilisateur profane d’un ordinateur.
[Link] données numériques
► Les données sont assimilées à de l’information brute qui a besoin d’être « traitée » pour devenir lisible.
► On s’intéresse ici à un niveau où les données ne relèvent plus des signaux électroniques, mais sont déjà
interprétées dans des codes symboliques sous la forme de chiffres ou de lettres, produites par l’usager ou
générées automatiquement par les logiciels dont il fait l’usage. Les données d’usage laissées
implicitement ou explicitement par les utilisateurs des machines numériques (par exemple, l’heure ou la
localisation de la connexion à un réseau, ou encore l’adresse d’un site consulté) sont décrites comme des
« traces numériques »
► Les métadonnées sont des données qui donnent des renseignements à l’ordinateur ou à l’humain sur des
données ; par exemple, les métadonnées d’expédition, de réception, etc. qui accompagnent la
circulation d’un message électronique.
Typologie des sources numériques

[Link] code informatique

► Avant d’être des « sources » pour la recherche, les SN sont composées de
« sources informatiques ». En effet, on appelle « code source » la série
d’instructions textuelles qui prévaut au traitement des données dans les
programmes et les logiciels, de l’exécution d’une action sur les données
(par des algorithmes) à l’affichage d’un contenu (par des instructions
appelées « balisage ») sur les médias informatisés.
Typologie des sources numériques
[Link] documents numériques
► En sciences de l’information, un document est « vu » (une forme et son
support), « lu » (un contenu), et « su » (des normes qui accompagnent sa
reconnaissance) Le document numérique déstabilise ces trois dimensions,
dans la mesure où il ne bénéficie pas de la fixation (même relative) du
support papier : ses formes et supports se modifient à la vitesse de l’
évolution des techniques informatiques et de leur appropriation par les
usages ; son contenu peut être composé, augmenté, modifié par un ou
plusieurs auteurs
Typologie des sources numériques

[Link] artefacts matériels

► Les artefacts matériels servant de supports à la conception et à l’usage des
technologies numériques, les équipements et les instruments informatiques
eux-mêmes participent largement des SN.
► domaine des matériaux structurels des environnements informatiques,
comme les réseaux, leurs câbles, protocoles, etc.
Traitement de données

► Création, numérisation, structuration, enrichissement,

analyse, diffusion et archivage. Pour chacun, nous allons
présenter des outils disponibles (généralement libres
d’accès), l’idée étant de nous focaliser ensuite sur l’un de
ces outils avec un scénario concret sur des données issues
de corpus littéraires.
Annotation
► L'utilisation de corpus annotés et d'outils d'annotation est maintenant
monnaie courante.
► Des méthodes automatisées robustes, capables d'attribuer à chaque unité
d'un texte une forme canonique (lemme) et une indication de sa catégorie
morphosyntaxique (étiquette), développées initialement pour la langue
anglaise, sont depuis quelques années disponibles pour le français.
► Il est donc logique que le développement d'applications en tout genre
travaillant sur des textes prennent de telles informations comme point
d'entrée de leur traitement, depuis la recherche d'information et
l'extraction terminologique, jusqu'au résumé automatique avec un taux de
succès dépassant les 95% sur un texte quelconque.
Annotation

► Ainsi, nous disposons, par exemple, pour un verbe conjugué, de ses

temps, mode, personne et nombre, et pour un pronom personnel, de ses
personne, nombre, genre et cas.
► Les lemmes correspondent, comme dans la totalité de ces approches, à
l'infinitif pour les verbes, au singulier pour les noms, et au singulier
masculin pour les adjectifs.
Lemmatisation

► [Link]
L’OCÉRISATION
► La technique d’OCR (optical character recognition) permet de situer et de
reconnaître les chaînes de caractères dans une image et donc de faire la
conversion des mots qui peuvent ensuite être utilisés pour faire une
recherche plein texte.

► Cette conversion est assurée automatiquement par un logiciel et fait l’

économie de la retranscription manuelle, beaucoup plus chère. Les mots
et chaînes de caractères stockés dans un fichier texte peuvent être
réutilisés pour une nouvelle mise en page, exploités dans une base de
données.
L’OCÉRISATION

► Ce traitement est composé de différentes étapes :

► prétraitements : redressement de la page, suppression des bords ;

► binarisation : conversion en noir et blanc ;
► segmentation : extraction des zones de la page, découpage en lignes, mots,
caractères
► reconnaissance des caractères ;
► reconnaissance des mots (avec des ressources linguistiques).
► Voici la liste des outils et applications :
► Resoomer (résumeurs),
► Transkribus (océrisation),
► Juxta et Text-PAIR (comparaison et alignement),
► Google N-Gram, jsLDA (topic modeling),
► Voyant Tools (distant reading),
► AntConc (concordancier),
► Frantext, Sketch Engine et TXM (analyse de textes et corpus outillés)

Vous aimerez peut-être aussi

3-Intro HN 051023
Pas encore d'évaluation
3-Intro HN 051023
28 pages
Document Numérique: Historique
Pas encore d'évaluation
Document Numérique: Historique
9 pages
Document Numérique - Wikipédia
Pas encore d'évaluation
Document Numérique - Wikipédia
27 pages
Compte Rendu Humanites Numeriques
Pas encore d'évaluation
Compte Rendu Humanites Numeriques
4 pages
Émergence Des Humanites Numeriques
Pas encore d'évaluation
Émergence Des Humanites Numeriques
2 pages
Compte Rendu Humanites Numeriques
Pas encore d'évaluation
Compte Rendu Humanites Numeriques
3 pages
Gefen - Les Enjeux Épistémologiques Des Humanités Numériques
Pas encore d'évaluation
Gefen - Les Enjeux Épistémologiques Des Humanités Numériques
15 pages
Cours Text Mining LIAA3
0% (1)
Cours Text Mining LIAA3
28 pages
Histoire Des Humanités Numériques Première Partie
Pas encore d'évaluation
Histoire Des Humanités Numériques Première Partie
39 pages
Compte Rendu Humanités Numériques
Pas encore d'évaluation
Compte Rendu Humanités Numériques
2 pages
Presentation Atelier 2020
Pas encore d'évaluation
Presentation Atelier 2020
108 pages
Article e Dossiers AV Translittératie
Pas encore d'évaluation
Article e Dossiers AV Translittératie
12 pages
Fiche Concept Métadonné
Pas encore d'évaluation
Fiche Concept Métadonné
2 pages
Compte Rendu Humanites Numeriques Detaille
Pas encore d'évaluation
Compte Rendu Humanites Numeriques Detaille
3 pages
Chapitre 5. Les Enjeux Du Web Sémantique
Pas encore d'évaluation
Chapitre 5. Les Enjeux Du Web Sémantique
16 pages
Structure et sens du texte écrit
Pas encore d'évaluation
Structure et sens du texte écrit
28 pages
Introduction à la GED et Documents Numériques
Pas encore d'évaluation
Introduction à la GED et Documents Numériques
45 pages
TD Humanites Numeriques
Pas encore d'évaluation
TD Humanites Numeriques
4 pages
Le Concept de Document Numerique
Pas encore d'évaluation
Le Concept de Document Numerique
13 pages
Cours en Français
Pas encore d'évaluation
Cours en Français
4 pages
Évolution du Document : Papier à Numérique
Pas encore d'évaluation
Évolution du Document : Papier à Numérique
14 pages
Hypermédia - Wikipédia
Pas encore d'évaluation
Hypermédia - Wikipédia
2 pages
Revuehn 3930
Pas encore d'évaluation
Revuehn 3930
21 pages
Ing Hn3 Cgnss FR Enspy 2023
Pas encore d'évaluation
Ing Hn3 Cgnss FR Enspy 2023
2 pages
Vers le Web Sémantique : Définition et Objectifs
Pas encore d'évaluation
Vers le Web Sémantique : Définition et Objectifs
12 pages
Formation Sciences Ouvertes CIDOC CRM
Pas encore d'évaluation
Formation Sciences Ouvertes CIDOC CRM
39 pages
SGD Multimedia
Pas encore d'évaluation
SGD Multimedia
6 pages
Histoire Des Humanites Numeriques - Sinatra - Vitali Rosati
Pas encore d'évaluation
Histoire Des Humanites Numeriques - Sinatra - Vitali Rosati
12 pages
Introduction aux Systèmes d'Information Géographique
Pas encore d'évaluation
Introduction aux Systèmes d'Information Géographique
14 pages
Paveau Adam 2015
Pas encore d'évaluation
Paveau Adam 2015
20 pages
Caractéristiques et étapes du text mining
Pas encore d'évaluation
Caractéristiques et étapes du text mining
4 pages
Stage bases-SO 20220705
Pas encore d'évaluation
Stage bases-SO 20220705
245 pages
Bibliothèques Numériques et Digital Humanities
Pas encore d'évaluation
Bibliothèques Numériques et Digital Humanities
2 pages
Fouille de Données Textuelles: Guide Complet
Pas encore d'évaluation
Fouille de Données Textuelles: Guide Complet
20 pages
Revue I3 hs2004 01 04
Pas encore d'évaluation
Revue I3 hs2004 01 04
32 pages
Takam Arielle
Pas encore d'évaluation
Takam Arielle
7 pages
Introduction au Text Mining
Pas encore d'évaluation
Introduction au Text Mining
5 pages
Humanités Numériques - Anna's Archive
100% (2)
Humanités Numériques - Anna's Archive
164 pages
Pincemin Semantique-Pur22 181127
Pas encore d'évaluation
Pincemin Semantique-Pur22 181127
21 pages
Outils Informatiques pour Langagiers
Pas encore d'évaluation
Outils Informatiques pour Langagiers
10 pages
LesOntologies JacqueChaumier2007
Pas encore d'évaluation
LesOntologies JacqueChaumier2007
4 pages
Document - Wikipédia
Pas encore d'évaluation
Document - Wikipédia
18 pages
Indexation Multimédia et Numérisation
Pas encore d'évaluation
Indexation Multimédia et Numérisation
32 pages
Litte Numérique
Pas encore d'évaluation
Litte Numérique
6 pages
Apprendre À Lire Grâce À L'hypertexte: To Cite This Version
Pas encore d'évaluation
Apprendre À Lire Grâce À L'hypertexte: To Cite This Version
22 pages
Recherche d'Infos sur Internet Invisible
Pas encore d'évaluation
Recherche d'Infos sur Internet Invisible
12 pages
Outils de résumé et traduction automatiques
Pas encore d'évaluation
Outils de résumé et traduction automatiques
3 pages
Techno et Terminologie : Nouveaux Outils
Pas encore d'évaluation
Techno et Terminologie : Nouveaux Outils
32 pages
Outils de Terminotique Et D Aide A La Traduction
Pas encore d'évaluation
Outils de Terminotique Et D Aide A La Traduction
8 pages
Document - Wikipédia
Pas encore d'évaluation
Document - Wikipédia
7 pages
Follonier Epistemologie Des Humanites Numeriques
Pas encore d'évaluation
Follonier Epistemologie Des Humanites Numeriques
7 pages
Gestion Du Corpus
Pas encore d'évaluation
Gestion Du Corpus
8 pages
Support Aide Pix
Pas encore d'évaluation
Support Aide Pix
6 pages
Numoc Fiche Révision
Pas encore d'évaluation
Numoc Fiche Révision
6 pages
Module Litt&numérique Master FCTN FLSH DLLF
Pas encore d'évaluation
Module Litt&numérique Master FCTN FLSH DLLF
13 pages
Automatisation des Champs dans Documents
Pas encore d'évaluation
Automatisation des Champs dans Documents
22 pages
L'Exploitation Du Document Numérique Dans Un Systeme D'Information Documentaire
Pas encore d'évaluation
L'Exploitation Du Document Numérique Dans Un Systeme D'Information Documentaire
51 pages
Protocole de Balisage XML Pour Transkribus-1-1
Pas encore d'évaluation
Protocole de Balisage XML Pour Transkribus-1-1
37 pages
Guide de rédaction du mémoire PFE SEG
Pas encore d'évaluation
Guide de rédaction du mémoire PFE SEG
12 pages
Référence 3e - LIT. SL-CP 22-23
Pas encore d'évaluation
Référence 3e - LIT. SL-CP 22-23
33 pages
PROMQ01-Maitrise Des Documents
100% (4)
PROMQ01-Maitrise Des Documents
8 pages
Cours Polycopie P I-Converti
100% (1)
Cours Polycopie P I-Converti
11 pages
La Redaction Administrative
Pas encore d'évaluation
La Redaction Administrative
162 pages
Cours de Recherche Documentaire L1 DD - Module 1
Pas encore d'évaluation
Cours de Recherche Documentaire L1 DD - Module 1
10 pages
Fiche de Lecture PDF
Pas encore d'évaluation
Fiche de Lecture PDF
5 pages
Etapes de La Recherche Documentaire
Pas encore d'évaluation
Etapes de La Recherche Documentaire
16 pages
QCM 2025
Pas encore d'évaluation
QCM 2025
47 pages
Guide de recherche bibliographique efficace
Pas encore d'évaluation
Guide de recherche bibliographique efficace
6 pages
Abrégé Normes Bibliographiques APA 2023 BPEM
Pas encore d'évaluation
Abrégé Normes Bibliographiques APA 2023 BPEM
17 pages
Procédure de gestion des documents SMQ
100% (3)
Procédure de gestion des documents SMQ
5 pages
FD X50-176 Août 2017
100% (2)
FD X50-176 Août 2017
58 pages
Projet de Recherche Scientifique
100% (5)
Projet de Recherche Scientifique
74 pages
La Recherche Documentaire
Pas encore d'évaluation
La Recherche Documentaire
17 pages
Guide des Institutions Documentaires
Pas encore d'évaluation
Guide des Institutions Documentaires
4 pages
Qu'est-Ce Qu'un Plan de Récolement - BMFecamps
Pas encore d'évaluation
Qu'est-Ce Qu'un Plan de Récolement - BMFecamps
5 pages
Évaluation contrôle continu Baccalauréat 2021
Pas encore d'évaluation
Évaluation contrôle continu Baccalauréat 2021
63 pages
Guide de la Recherche Documentaire
Pas encore d'évaluation
Guide de la Recherche Documentaire
4 pages
Techniques Documentaire PDF
100% (1)
Techniques Documentaire PDF
8 pages
Cercles Litteraires
Pas encore d'évaluation
Cercles Litteraires
27 pages
Bibliothéconomie S 4
Pas encore d'évaluation
Bibliothéconomie S 4
18 pages
Cours de Méthodologie LM Formatec 2018
Pas encore d'évaluation
Cours de Méthodologie LM Formatec 2018
61 pages
Sujet de Francais Crpe 2015 Corrige
100% (1)
Sujet de Francais Crpe 2015 Corrige
17 pages
Rameau 0007
Pas encore d'évaluation
Rameau 0007
42 pages
Techniques de recherche documentaire IST
Pas encore d'évaluation
Techniques de recherche documentaire IST
12 pages
Draft Norme ISO 22301 Version 2019.-1 Continuité de L'activité
Pas encore d'évaluation
Draft Norme ISO 22301 Version 2019.-1 Continuité de L'activité
22 pages
Guide de Visite GED Business
Pas encore d'évaluation
Guide de Visite GED Business
36 pages
Programme de Formation TRI NTIC
100% (1)
Programme de Formation TRI NTIC
100 pages