Archives de catégorie : Billets

Colloque international de clôture du programme ANR TIME-US

08/09/2021 timeus Laisser un commentaire

Avec le concours des laboratoires CMH (Paris), ICT (Paris), IRHIS (Lille), LARHRA (Lyon), TELEMMe (Marseille) et de l’Institut Universitaire de France

Lyon, 9-10 septembre 2021

Conçu pour entamer une réflexion renouvelée sur le travail dans la fabrication de produits textiles en France, sa rémunération et les usages du temps des travailleurs et des travailleuses, le projet Time-Us a ouvert plusieurs chantiers de recherche grâce au travail collectif d’une équipe pluridisciplinaire réunissant des spécialistes de l’histoire économique et des techniques, de l’ethnométhodologie, de l’édition numérique et du traitement informatisé de la langue. Le colloque de clôture s’articule autour des quatre pôles de réflexion qui ont orienté les recherches de l’équipe, abordés dans une perspective comparative inter-régionale impliquant une confrontation constante avec d’autres cas d’études en Europe et au-delà. Cette dimension comparative et internationale est transversale aux thématiques qui sont au cœur du colloque qui aura lieu à Lyon le 9 et 10 septembre 2021. La discussion des communications est ainsi organisée autour des sessions suivantes :

Éditer et traiter des sources qualitatives sur le travail dans le textile
Organisation du travail, hiérarchies sociales et relations de genre dans la longue durée
Modes de rémunération, division du travail et définition du salaire dans l’industrie textile
Budgets, domesticité, usages du temps

> Télécharger les abstracts <

Programme

9 septembre 2021

Salle Marc Bloch, MSH de Lyon et Saint-Étienne, 14 avenue Berthelot

Matin

9h30 Arrivée des participant.es et mot d’accueil institutionnel

Présidence Natacha Coquery (Université de Lyon 2)

Introduction

10h Manuela Martini, « Le projet Time-Us. Rémunération et usages du temps des hommes et des femmes dans le textile en France dans la longue durée. Pratiques de recherche et explorations historiographiques »

Session 1. Éditer et traiter des sources qualitatives sur le travail dans le textile

10h15 Équipe Time-Us « Transcrire et éditer des sources numérisées sur le travail dans l’industrie textile » (Jean-Damien Généro, Alix Chagué, Victoria Le Fourner et Marie Puren)

10h45 Équipe Time-Us « Outiller un corpus en Humanités Numériques » (Éric de la Clergerie, Julien Martin)

Pause-café

11h30 Équipe Time-Us Analyse hyperqualitative : Les comptabilités des faillites (Pauline Poutrel-Liliane Hilaire-Pérez), L’économie de la fraude (Anne Montenach), Les comptes d’un fabricant de cachemire parisien sous la Restauration (Anaïs Albert)

12h15 Commentaires : Laurent Romary (INRIA-ALMAnaCH) et Claire Lemercier (CSO, CNRS-Sciences-Po, Paris)

Après-Midi du 9 septembre 2021

Présidence Natacha Coquery (Université de Lyon 2-LARHRA)

Session 2. Organisation du travail, hiérarchies sociales et relations de genre dans la longue durée

Hayri Ozkoray Goksin (Université d’Aix-Marseille, TELEMMe), « La main-d’œuvre féminine dans l’industrie textile dans l’Empire ottoman à l’époque moderne : le cas de Bursa »

Fabrice Bensimon (Sorbonne Université, CH XIXe siècle), « Les ouvrières du lin et du jute, de Dundee à l’Europe (1840-1870) »

Lorenzo Avellino (Université de Genève), « Dette, paie et vol : un marché dans l’ombre du marché dans la fabrique de la soie lombarde (1780-1860) »

Pause-café

16h15 Équipe Time-Us : « Organisation du travail, relations de genre et économie domestique de l’atelier » (Manuela Martini- Anne Montenach- Matthieu de Oliveira- Pierre Vernus)

Commentaires de Carmen Sarasúa (Université Autonoma de Barcelone)

10 septembre 2021

Lyon, amphithéâtre de la MILC, 25 rue Raulin, Lyon 07

Matin

Présidence Hervé Joly (CNRS-TRIANGLE, Lyon)

Session 3. Modes de rémunération, division du travail et définition du salaire dans l’industrie textile

9h30 Joyce Burnette (Wabash College), « Explaining Earnings Variation among Weavers in a US Factory»

10h Cinzia Lorandini (Université de Trento), « Female labour in the silk industry: evidence from nineteenth-century Tyrol »

10h30 Leda Papastefanaki (Université de Ioannina et IMS-FORTH), « Forms of remuneration, skill and gender division of labour in the cotton textile industry of Greece, 1870-1940 »

Pause-café

11h15 Mohamed Kasdi (IRHIS), Didier Terrier (Université de Lille-IRHIS), « Ouvriers et ouvrières dans le maquis des rémunérations au sein des filatures de coton du XIXe siècle ».

Commentaires de Manuela Martini et Anne Montenach

Après-midi 10 septembre 2021

Présidence Carmen Sarasúa (Université Autonoma de Barcelone)

14h00 Équipe Time-Us « Reconstruire les conflits autour du prix du travail à travers les sources prud’homales au XIXe siècle » (Anaïs Albert, Manuela Martini, Matthieu de Oliveira, Pierre Vernus)

Pause-café

Session 4. Budgets, domesticité, usages du temps

15h30 Time-Us Team : Alain Cottereau-Anne Lhuissier-Stéphane Baciocchi, « L’économie familiale des textiles. Explorer les activités liées aux textiles et aux vêtements au sein de l’activité domestique »

Commentaires de Claire Lemercier (CSO, CNRS-Sciences-Po Paris)

Discussion générale

Responsable scientifique du colloque : Manuela Martini (Université de Lyon 2-LARHRA)

Logistique et suivi des réservations : Marilyne Brenna (LARHRA)

Communication : Claire Veyrunes (LARHRA)

Billets

Programme de la journée d’études “Soies et soieries” (28 mai 2021)

28/05/2021 timeus Laisser un commentaire

Soies et soieries. Métiers, échanges et production dans une perspective euro-asiatique du XVIIe au milieu du XXe siècle

Pré-session du XIXe World Economic History Congress

Organisée dans le cadre du programme ANR –TIME-US Rémunérations et usages du temps des hommes et des femmes dans le textile en France

Maison des sciences de l’homme de Lyon-Saint-Étienne-LARHRA (UMR 5190), avec la participation des laboratoires ICT (Université de Paris) et TELEMME (université d’Aix-Marseille)

28 mai 2021

en visio-conférencesur Zoom avec mot de passe obligatoire

14 avenue Berthelot

69007 Lyon

En préparation du XIXe World Economic History Congress, la ‘pré-session’ qui se tiendra à Lyon le 28 mai, organisée dans le cadre du programme Time-Us, explorera les activités liées à la production, au traitement et au commerce de la soie et des tissus en soie du XVIe siècle au XXe siècle¹ . La journée d’études réunira un groupe de chercheurs et chercheuses d’Asie et d’Europe afin de discuter des questions interconnectées dans une perspective euro-asiatique portant à la fois sur la production de la matière première et des tissus, l’organisation des ateliers de fabrication et la consommation de la soie. La valeur élevée de la soie et son faible volume expliquent pourquoi cette ressource naturelle a fait partie intégrante du développement économique de certains pays ainsi que son importance en tant que produit commercialisé à l’échelle mondiale entre l’Asie et les autres continents. Les thèmes explorés dans ce ‘pré-session’ comprennent, sans s’y limiter : la division et la spécialisation du travail entre les différentes étapes de la transformation de la soie ; l’industrie domestique et la production en usine ; le transfert de technologie et les techniques étrangères ; la division du travail, et les rôles économiques selon le sexe, dans les unités familiales rurales et urbaines ; les marchés et la collecte, la mise en forme et la diffusion de l’information économique.

Programme

28 mai 2021

Matin

9h Arrivée des participants et participantes et accueil institutionnel

9h15 Ouverture :

Manuela Martini (LARHRA-Lyon 2) et Pierre Vernus (LARHRA-Lyon 2)

Session 1 : Echanges, techniques et pratiques de fabrication des produits en soie

Modération et commentaires : Giorgio Riello (Institut Universitaire Européen, Fiesole, Italie)

9h30 Manuela Martini (LARHRA-Lyon 2), Anne Montenach (TELEMMe Aix-Marseille Université) et Pierre Vernus (LARHRA-Lyon 2), « Tisseurs et tisseuses au travail dans la Fabrique lyonnaise du début du XVIIIe à la fin du XIXe siècle. Une perspective genrée de longue durée »

10h15 John Styles (University of Hertfordshire/Victoria and Albert Museum), « Mixing fibres, twisting threads: silk and cotton in England, 1600-1780 »

Pause-café

11h30 Chuan-Hui Mau (Université nationale Tsing-Hua, Taiwan), « The impact of Sino-european trade on Chinese silk production (17th-mid 20th centuries) »

Discussion

Après-midi

Session 2 : La soie comme système productif et ses institutions

Modération et commentaires : Giorgio Riello (Institut Universitaire Européen, Fiesole, Italie)

13h30 Ricardo Franch Benavent (Université de Valencia) et Daniel Muñoz Navarro (Université de Valencia), « The silk industry in Valencia. Economic growth, guild organisation and labour market (1479-1836) »

14h15 Mario Grassi (Université de la République de San Marino), « A delicate equilibrium: social and economic dynamics of velvet family workshops in Turin during the 18th century »

Pause-café

15h30 Liliane Hilaire-Pérez (ICT Université de Paris-EHESS) et Daisy Bonnard (Musée des Tissus Lyon) « Les inventions primées et les dépôts d’inventions à Lyon au XIX^e siècle. Un modèle local de gestion collective »

16h15 Lorenzo Avellino (Université de Genève), « Un ordre corporatif mis à mal : des ouvriers, des fabricants ou des oisifs ? (Côme, Lombardie, fin XVIIe-début du XIXe siècle »

Discussion générale

Responsables scientifiques : Manuela Martini (LARHRA-Lyon 2, [email protected]) et Pierre Vernus (LARHRA-Lyon 2, [email protected])

Logistique et inscriptions : Claire Veyrunes (LARHRA, [email protected])

Cette journée d’études précède la session intitulée « Silk : trades, production and skills in a Eurasian perspective from the 17th to the mid 20th century » organisée par Tomoko Hashino (Université de Kobe, Japon), Mau Chuan-Hui (Université nationale Tsing Hua, Taiwan) et Pierre Vernus (Université Lumière Lyon 2, France) pour le XIXe World Economic History Congress qui se tiendra à Paris du 25 au 29 juillet 2022. [↩]

Billets

Autour du corpus de presse des Prud’hommes de Lyon. Structuration, préparation et exploration de textes inédits (1830-1850)

17/12/2020 achambat Un commentaire

par Anaïs Chambat
Master Humanités numériques
École Normale Supérieure de Lyon

Traditionnellement utilisée en sociologie ou en linguistique comme préalable à une recherche, l’analyse textuelle participe à une mise à jour des structures langagières.

« Il ne s’agit non pas de chercher le sens d’un texte, mais de déterminer comment sont organisés les éléments qui le constituent¹ ».

L’objectif du protocole développé par l’équipe de l’Inria est à terme de combiner les fonctionnalités d’une plateforme open-source à des études statistiques. TXM² s’est rapidement imposé comme une référence dans la construction et l’analyse des corpus annotés. Il permet notamment d’adopter une approche philologique et sémantique des textes étudiés. Il mobilise les propriétés de TreeTagger un outil performant d’étiquetage morphosyntaxique et de lemmatisation. Les occurrences sont réduites à leur racine, les verbes sont ramenés à l’infinitif, les noms au singulier et les adjectifs au masculin singulier. Le corpus peut également être tokénisé, des segments sont alors constitués d’après la ponctuation en respectant le plus possible la structure du langage. La détection des « catégories grammaticales » (POS) enjoint par ailleurs à explorer des pistes conceptuelles et linguistiques avancées³. Plus les métadonnées renseignées sont complètes, plus il est aisé d’effectuer une requête spécifique et de partitionner les analyses en sous-corpus.

Par une mise en perspective de cette technique, ce billet visera à illustrer les modalités de l’hybridation entre une pratique historienne de la quantification et des humanités numériques⁴. Quantifier, c’est effectivement « exprimer et faire exister sous une forme numérique, ce qui auparavant, était exprimé seulement par des mots et non par des nombres⁵ ». L’information statistique n’est donc pas recueillie en tant que telle, mais est issue d’un processus de construction de données.

« Le numérique [quant à lui] n’est pas seulement un outil, c’est un milieu, un moyen de reconditionner notre relation au monde, à la culture, à l’environnement⁶ ».

Nous prendrons ici l’exemple du corpus des rapports d’audiences des Prud’hommes de Lyon composé de neuf revues : La tribune lyonnaise (1845-1851) ; La tribune prolétaire (1834-1835) ; L’avenir (1846-1847) ; L’écho de la fabrique (1831-1834, 1841-1845) ; L’écho de l’industrie (1845) ; L’écho des ouvriers (1840) ; L’écho des travailleurs et L’indicateur (1834-1835). Nous reviendrons sur son modèle d’encodage et aborderons des pistes de génération automatique des fichiers. Enfin, nous exposerons les premiers résultats obtenus.

Un modèle d’encodage en XML-TEI

L’encodage XML-TEI possède de nombreux avantages résumés brièvement ici par l’informaticien britannique Lou Burnard :

il « s’intéresse au sens du texte plutôt qu’à son apparence […] est indépendant de tout environnement logiciel particulier [… et] a été conçu par la communauté scientifique, qui est aussi en charge de son développement continu⁷ ».

L’enrichissement des données s’effectue grâce à un système d’annotation à même le contenu sans le modifier. Il aide ainsi à l’élaboration d’une structure généralisée et flexible de tous les types de données, tout en permettant l’accès à un large écosystème de sorties.

Un processus de transcription a d’abord été réalisé grâce à la plateforme Transkribus. Les fichiers obtenus n’étaient pas utilisables en l’état. Il a donc été nécessaire de procéder à une série de nettoyages et de corrections, organisées sous la forme d’un teiCorpus par revue⁸. Les transcriptions ont alors été révisées et annotées avant d’être centralisées dans un fichier TSV unique pour l’ensemble du corpus⁹. En vue de leur versement dans TXM, un teiCorpus a été généré avant d’être segmenté d’après la plus petite unité textuelle considérée, celle des audiences. Nous reviendrons sur cette procédure ultérieurement. Chacun des 641 fichiers XML-TEI porte un identifiant unique et normalisé identique à son nom. Ainsi, un fichier intitulé « La tribune lyonnaise, 1845, 3, 001 » se lit : rapport d’audience n°1 publié dans la tribune lyonnaise du mois de mars 1845.

Après la déclaration de l’encodage du document, la première partie visible est celle du teiHeader, une structure indispensable qui contient les métadonnées pouvant être interrogées et permettre le partitionnement du corpus. Elle se divise en trois sections : la description formelle du fichier, des données éditoriales et de la source concernée. La première reprend le titre et contient la liste des contributeur·ices ainsi que les rôles qu’ils/elles ont occupés.

Exemple de teiHeader

Description du fichier et de ses données éditoriales

Description de la source concernée

Cette section contient l’identifiant Numelyo¹⁰, la date de publication de la revue, son numéro et le code de l’année s’il y a lieu. Les URLs des ressources auraient également pu figurer ici. Le second ensemble du fichier correspond au texte.

Exemple d’encodage des métadonnées du texte

La balise « text » a été typée d’un attribut afin de rappeler le nom de la revue et la date de l’audience. La balise « milestone » permet ensuite de lier systématiquement l’archive étudiée à son fonds. Les numéros de page ont également été encodés. Enfin, la balise « body » comprend les balises de paragraphes du rapport d’audience.

Vers une génération semi-automatique du corpus

Grâce aux différentes informations extraites au format TSV lors du processus de collecte, les fichiers XML-TEI ont pu être générés semi-automatiquement¹¹. Le fichier de métadonnées est spécifié comme paramètre d’entrée. Il est composé de 641 lignes et de 19 colonnes. La première colonne correspond à l’identifiant du fichier. Il s’agit d’une concaténation entre le titre de la revue, la date de publication et le numéro de l’audience. Les dix qui suivent sont celles des contributeur·ices du projet et des rôles qu’ils/elles ont occupés. Les huit dernières se répartissent comme suit : l’identifiant Numelyo de la source, la date de publication, le numéro, l’année, le titre de la revue, la date de l’audience, les pages concernées par le compte-rendu, et enfin, le contenu textuel du rapport d’audience.

Notre démarche a été de reproduire dans une fonction Python la structure d’un fichier XML-TEI et d’y faire correspondre le contenu du TSV. Une façon simple de procéder est d’appeler successivement les colonnes dans l’ordre de leur apparition dans la structure XML-TEI. Nous avons ensuite utilisé une feuille de transformation XSLT¹² pour diviser le teiCorpus ainsi obtenu en autant de fichiers que d’audiences. Puis, d’après la liste des identifiants, nous avons renommé les 641 fichiers en série grâce au programme libre Ant Renamer.

Enfin, nous avons procédé à l’importation du corpus XML-TEI dans TXM. Il suffit pour cela d’utiliser l’option « import XML/w + CSV ». Le balisage initial est conservé et permet une recherche par unités de structures¹³. Si l’on souhaite ajouter d’autres métadonnées, il convient de joindre un fichier csv intitulé « metadata » qui contiendrait les noms des fichiers et les informations souhaitées. Le corpus peut également être enrichi manuellement grâce à l’annotation URS (Unité-Relation-Schéma) au fil du texte¹⁴.

Premières analyses textuelles

Afin que les résultats statistiques aient un sens et soient recevables, il est essentiel que le corpus et ses éventuels sous-corpus aient été contextualisés et ses règles de composition rendues visibles. Les textes doivent être environ de même longueur, concerner le même public et porter sur le même thème. Ils ne peuvent avoir été écrits le même jour et doivent recéler des différences internes¹⁵. Par souci d’objectivité, nous avons donc fait le choix d’analyser une revue tirée au hasard, à savoir les rapports d’audiences de la tribune lyonnaise, de mars 1845 à janvier 1851, avant d’étudier le corpus entier.

Nous avons souhaité dans un premier temps faciliter l’interrogation des structures langagières et nous affranchir des contraintes formalistes du CQP¹⁶ utilisé par TXM. Pour ce faire, nous avons mis en place un concordancier en langage naturel. Il s’agit d’une liste alphabétique des mots où chaque instance est accompagnée de son contexte immédiat. Les fonctionnalités offertes par les bibliothèques Python de fouille de textes¹⁷ nous ont permis d’aller plus loin dans cette démarche et de proposer une interrogation complète du corpus incluant la prise en compte des caractères spéciaux, de la ponctuation ou encore de la casse des mots. Prenons l’exemple de l’expression « Conseil des Prud’hommes » :

Extrait de la sortie console de l’expression « Conseil des Prud’hommes »

Si le nombre d’occurrences de l’instance recherchée est affiché, il n’est pas encore possible de spécifier précisément de quelle unité textuelle elle est originaire. De premières visualisations excluant les mots-outils ont été réalisées telles que des nuages de mots, des lois de Zipf¹⁸ ainsi que des réseaux dynamiques de proximité entre les syntagmes à l’échelle des audiences ou des paragraphes.

Nuage de mots, fréquence ≥ 50 soit 40 formes actives

La taille des formes lexicales est proportionnelle à leur fréquence. Les mots les plus cités sont placés au centre du nuage : « atelier » (322), « conseil » (312), « chef »(268), « audience » (243) et « contre » (210). Afin d’étudier les liens entre ces différentes formes, nous avons opté pour la t-SNE¹⁹, une technique de projection qui cherche à conserver le voisinage des mots. Les coordonnées des audiences sont projetées. La matrice de données est multipliée par elle-même, ce qui revient à estimer une similarité entre les formes.

L’espace vectoriel considéré peut rapidement devenir illisible. Les unités textuelles sont denses et se recoupent. On remarque une communauté centrale homogène à partir de laquelle de plus petites se forment. Un vocabulaire similaire est donc partagé par les îlots. Il est possible d’affiner cette vue par une projection des groupes mots.

Lorsque les formes lexicales apparaissent superposées sur le plan vectoriel, cela signifie qu’elles sont employées dans un même contexte immédiat. Nous pouvons citer par exemple les associations entre « conseil et prud’hommes » ; « chef et atelier » ; « père et fils » ; « maître et apprenti » ; « ouvriers et négociants » ; « paiement, résiliation et contrat » ou encore « travailler et jours ».

Il est également possible de représenter ces résultats sous la forme d’un réseau dynamique de co-occurrences. Ce type de visualisation est plus ergonomique²⁰. La force du lien est matérialisée par l’accentuation du trait et les sommets sont clairement identifiables. Une liste des formes les plus représentées par chaque sommet est d’ailleurs disponible. Les éléments relevés précédemment peuvent ainsi être rapidement confirmés.

Enfin, nous avons souhaité vérifier si les premières conclusions observées sur une revue pouvaient être représentatives. À cette fin, nous avons appliqué au corpus entier un modèle probabiliste de type LDA (Latent Dirichlet Allocation). Il suppose que chaque unité textuelle est un mélange d’un petit nombre de thématiques, et que la génération de chaque occurrence d’un mot est attribuable à l’un des sujets du corpus considéré. Un nombre n de thèmes est instancié. Il convient de le faire varier afin d’observer des changements dans la répartition des occurrences et ainsi hiérarchiser et interpréter les différentes catégories retenues. Cette démarche peut être rapprochée de celle proposée par la classification de Max Reinert²¹ qui cherche à rendre compte de l’organisation interne d’un discours par la mise en évidence des « mondes lexicaux » investis par le locuteur. Elle peut notamment être mise en pratique grâce à IRaMuTeQ²². La principale différence entre ces deux méthodes réside dans le fait que le nombre de thématiques est imposé dans la seconde.

Visualisation dynamique d’une LDA à cinq thématiques

Résumé des termes les plus représentés par chaque thématique

N°	En %	Termes associés
1.	26,7	négociant, chef, atelier, métier [à tisser], ouvrier, fabricant.
2.	21,6	conseil, prud’hommes, audience, séance, président, MM.
3.	18,2	sieur, prix, payer, somme, attendu, indemnité, fr [francs].
4.	17,6	apprentissage, apprenti, apprentie, élève, maître, père, fils, mère, fille, chez.
5.	15,9	juger, jurisprudence, cause, contre, livret.

La première fait référence à la partie descriptive du rapport dans laquelle les deux parties sont présentées. La deuxième reprend le vocabulaire normatif propre au déroulé d’une audience. La troisième concerne la réparation financière du préjudice. La quatrième relève du champ lexical de la filiation et de la transmission. Elle peut être rapprochée sur le plan conceptuel de la première catégorie. Enfin, la dernière présente des termes juridiques plus rarement employés. Si les catégories 1, 2 et 3 se rejoignent, les catégories 4 et 5 sont quant à elles diamétralement opposées. On note par ailleurs la présence de trois mots pivots « atelier », « conseil » et « chef », indépendamment de la catégorie considérée. Il s’agit également des trois syntagmes les plus utilisés au sein de la tribune lyonnaise. Il est ainsi possible dans une première approche alliant quantification et numérique de contextualiser la structure langagière d’un corpus.

Cette démarche exploratoire a notamment permis de mettre en avant l’ambiguïté de certaines dénominations. En effet, dans une même audience, une même travailleuse peut être mentionnée à la fois sous son nom, suivant son état civil, la position qu’elle occupe dans l’affaire et son métier. Afin que le décompte des occurrences puisse faire sens, il est nécessaire d’associer ces différents statuts à la personne concernée par l’ajout d’une balise « persName » dans les fichiers XML-TEI. La constitution d’une « listPerson » permettrait également de lier les différents individus. Le protocole semi-automatique de reconnaissance des entités nommées actuellement en cours devrait permettre à terme de désambiguïser le corpus et ainsi de procéder à une analyse plus fine des structures textuelles.

Ludovic Lebart, André Salem, Analyse statistique des données textuelles, Paris : Dunod, 1988 (1994), p. 183. [↩]
Serge Heiden, Jean-Philippe Magué, Bénédicte Pincemin, « TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement » in Sergio Bolasco (dir.), Proceedings of 10^th International Conference on the Statistical Analysis of Textual Data, JADT 2010, Rome, vol. 2, pp. 1021–1032. [↩]
« Il sert [plus spécifiquement] à calculer le vocabulaire d’ensemble d’un corpus ou la liste des valeurs d’une propriété particulière ; à construire des tables lexicales ; à rechercher des motifs lexicaux complexes construits à partir des propriétés des unités lexicales et produit des concordances [en contexte] à partir des résultats. [Mais aussi], à calculer le modèle des spécificités de mots ou d’étiquettes situés à l’intérieur d’un sous-corpus ainsi que l’analyse factorielle des correspondances de propriétés des mots sur une partition et peut renvoyer la classification associée. » In Bénédicte Pincemin, Serge Heiden, « Qu’est-ce que la textométrie ? Présentation », Site du projet TXM. [↩]
« Les digital humanities ne font pas table rase du passé. Elles s’appuient, au contraire, sur l’ensemble des paradigmes, savoir-faire et connaissances propres à ces disciplines, tout en mobilisant les outils et les perspectives singulières du champ du numérique. […] Elles désignent une transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liés au numérique dans le domaine des sciences humaines et sociales. » Points 1 à 3 énoncés dans le Manifeste des humanités numériques, ThatCamp Paris, 18 et 19 mai 2010. [↩]
Alain Desrosières, Sandrine Kott, «Quantifier», in Genèses, n°58, 2005, p. 2-3. [↩]
Pierre Bachimont, « L’archive et la massification des données : une nouvelle raison numérique ? », Forum des archivistes, 30 mars 2016, Troyes. [↩]
Lou Burnard, Qu’est-ce que la Text Encoding Initiative ?, Marseille, 2015. [↩]
Créés à l’aide du script TEITransformations [↩]
Corpus des Prud’hommes de Lyon au format TSV [↩]
Numelyo est la bibliothèque numérique de la Bibliothèque municipale de Lyon. En libre accès, elle regroupe des livres numérisés, des revues, des photos, des affiches et des estampes. [↩]
D’après le script TSV to XML [↩]
Alexei Lavrentiev, « txm-split-teicorpus.xsl », élaborée en 2017 au sein du groupe de recherche Cactus de l’IRHIM (UMR 5317), ENS de Lyon. [↩]
Nous entendons ici les lemmes, les catégories grammaticales, les caractères et les mots, abrégés dans TXM de la manière suivante : frlemma, frpos, n et word. [↩]
L’interface d’annotation des unités reproduit celle du logiciel Analec. [↩]
Bénédicte Bommier-Pincemin, Diffusion ciblée automatique d’informations : conception et mise en œuvre d’une linguistique textuelle pour la caractérisation des destinataires et des documents, Thèse de Doctorat en Linguistique, Université Paris IV Sorbonne, 6 avril 1999, chapitre VII, A « Définir un corpus », pp. 415-427. [↩]
Stefan Evert & The IMS Corpus Workbench (CWB), « CQP Query Language Tutorial. CWB Version 3.5 », mis en ligne en mai 2019. [↩]
Notamment Re qui permet une prise en charge complète des expressions régulières et Scikit-learn destinée au traitement automatique du langage. [↩]
Il s’agit d’une observation empirique de la distribution des mots dans un texte. Elle représente la fréquence d’occurrence d’un mot suivant son rang. Elle témoigne le plus souvent de la présence d’un vocabulaire varié contenant de nombreux mots uniques (hapax). [↩]
T-distributed stochastic neighbor embedding. [↩]
Réalisée à partir de ce tutoriel. [↩]
Max Reinert, « Une méthode de classification descendante hiérarchique : application à l’analyse lexicale par contexte », in Les cahiers de l’analyse de données, 8/2, 1983, pp. 187-198. [↩]
Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. Il s’agit d’un logiciel de lexicométrie développé par Pierre Ratinaud, de 2008 à 2014 au sein du LERASS, proposant des études basées sur les méthodes statistiques (calculs de spécificités, analyses factorielles et Méthode Reinert) et l’analyse de réseaux de mots (analyses de similitudes). [↩]

Billets

Les ouvriers des deux mondes : des images aux urls

19/06/2020 J.-D. Genero Laisser un commentaire

Par Jean-Damien Généro
Étudiant de l’École nationale des chartes
Master Technologies numériques appliquées à l’histoire

Si les documents d’archives ont une part prépondérante dans le projet TIME US, ils ne représentent pas pour autant l’intégralité de sa documentation. Les imprimés sont également présents, sous la forme de trois importants dossiers : la collection de la presse ancienne lyonnaise, divers imprimés portant sur le textile en France au XIX^e siècle, et le corpus des Ouvriers des deux mondes¹.

Les Ouvriers des deux mondes sont des enquêtes sociologiques réparties en 3 séries et 126 monographies². Initiée par le sociologue Frédéric Le Play (1806-1882), la publication est assurée par la Société internationale des études pratiques d’économie sociale de 1857 à 1928 et représente un total de 13 volumes. Ceux-ci sont aujourd’hui intégralement consultables sur le site Internet Archive³. Nous allons nous intéresser dans ce billet aux fichiers de transcription de ces volumes et au lien entre ceux-ci et les images numérisées d’origine.

Le script LSE OD2M, écrit par Alix Chagué, avait automatiquement segmenté et transcrit les images, puis encodé et structuré en XML-TEI les textes bruts ainsi obtenus ⁴ ; la sortie avait résulté en 13 fichiers XML. Ces fichiers « sources » avaient ensuite été scindés en 222 fichiers XML correspondant à autant de divisions logiques des volumes : les monographies bien sûr, mais également les introductions, tables des matières et autres éléments de paratexte. Des opérations de vérification ont permis de réduire le nombre de fichiers à 192.

Les images : stockage local ou distant ?

Le schéma d’encodage retenu conserve le lien entre l’image et sa transcription. Celui-ci s’exprime sous la forme d’un élément <facsimile> englobant une ou plusieurs balises <graphic>, dont l’attribut @url indique la localisation de l’image.

Exemple d’une section <facsimile> :

<facsimile xml:id="facs_451">
  <surface lrx="2721" lry="4415">
   <figure/>
   <zone rendition="printspace">
    <zone lrx="1357" lry="712" rendition="paragraph" ulx="352" uly="474" xml:id="facs_451_p_1"/>
    <zone lrx="1354" lry="864" rendition="paragraph" ulx="350" uly="750" xml:id="facs_451_p_2"/>
    <zone lrx="2430" lry="3952" rendition="paragraph" ulx="1419" uly="3772" xml:id="facs_451_p_24"/>
   </zone>
  </surface>
  <graphic url="../images/bin/lesouvriersdesde01sociuoft_0454.tif"/>
</facsimile>

Le script LSE OD2M a travaillé à partir d’images stockées localement après avoir été téléchargées depuis Internet Archive : chaque attribut @url contient donc un chemin local vers une image.

Ce stockage local répondait à un besoin spécifique lors de la phase de transcription. Il pose néanmoins problème pour la suite du traitement, dans la mesure où il ne garantit pas la portabilité du corpus.

Le site Internet Archive met à disposition du plus grand nombre des ressources digitalisées ou numériquement natives depuis son lancement en 1996. Son idée fondatrice est d’être un centre stable et durable d’archives digitales ; stocker en local les ressources qui en sont issues ne semble ainsi pas nécessaire. Il a donc très vite été question de substituer au chemin local l’url de l’image sur Internet Archive.

Pour ce faire, deux étapes étaient nécessaires :

Rechercher les urls ;
Écrire un script pour :
- Itérer sur l’ensemble des fichiers XML ;
- Comparer les chemins locaux aux urls ;
- Éffectuer la substitution lorsque les deux correspondaient à la même image.

Recherche des urls

Éffectuer la substitution sur la base d’une expression régulière n’était pas envisageable, car la dénomination des images dans les urls sur Internet Archive et dans les des fichiers images n’était pas similaire.

La piste de la librairie python internetarchive a été explorée, mais là encore sans succès. C’est finalement l’analyse du code source des pages d’Internet Archive qui a permis de remonter jusqu’à un fichier JSON contenant les urls des images.

Le format JSON présente une information structurée qui s’apparente à des dictionnaires et des listes pour le langage Python. Celui-ci intègre un module (json) permettant de lire les données des fichiers JSON. Dans le cas qui nous intéresse, les url se trouvaient à ce chemin :

├──['data']
      |──['brOptions']
            |──['data']
                 |──[index de la double page]
                         |──[index de la page]
                                      |──['uri']

Une fois cette information connue, il devenait possible de remplacer dans le fichier XML les chemins locaux par ces urls. Encore fallait-il s’assurer que les deux correspondaient à la même image.

Le script de substitution

Le script de comparaison des chemins et des urls requiert trois arguments :

Un fichier .csv contenant une liste des liens vers les fichiers JSON ;
Un deuxième fichier .csv avec une liste de fichiers .xml ;
Le chemin local menant au dossier de ces fichiers.

Figure 1. Modélisation du script sous forme d’un algorigramme. — Figure 1. Algorigramme du script (cliquez pour agrandir).

Dans un premier temps, le script itère sur les urls des JSON et sur les dénominations des fichiers XML. Dans un second temps et à condition que l’identifiant du JSON se trouve dans l’intitulé du fichier XML — et donc si les deux ont bien pour objet le même volume — une requête GET est effectuée vers le JSON via le module requests⁵ et le fichier XML est ouvert et parsé via la librairie Beautiful soup⁶.

Ensuite, une nouvelle itération est effectuée sur chaque double-page dans le JSON et sur chaque balise <graphic> dans le fichier XML. Les valeurs obtenues (url de la page de droite, url de la page de gauche, chemin local de l’attribut @url de <graphic>) sont stockées et comparées : lorsqu’une correspondance est trouvée, @url prend pour nouvelle valeur l’adresse de l’image sur Internet Archive.

La comparaison finale est effectuée grâce à une expression régulière fondée sur l’identifiant unique à quatre digits de l’image, précédé par un tiret bas (_\d{4}), présent tant dans le chemin local que dans l’url de l’image.

Conclusion

Le script a effectué 6503 insertions dans 192 fichiers en un peu moins d’une minute.

Il a été écrit pour répondre à un besoin posé par les fichiers XML d’un corpus spécifique ; sa réutilisation est néanmoins envisageable si l’utilisateur peut satisfaire aux arguments du script. Sur les trois requis, les deux premiers sont essentiels pour son bon fonctionnement (deux tableaux listant les JSON et les fichiers XML qui seront comparés). Le troisième, le chemin absolu vers le dossier contenant les XML, peut en revanche être rendu optionnel et converti en une variable intégrée dans l’exécution du script.

En dernier lieu, il faut noter que les urls listées dans les JSON présentent l’avantage de pointer directement vers les images sources, et non vers l’interface de consultation d’Internet Archive. C’est une garantie de pérennité (aucune dépendance vis à vis des mises à jour de la visionneuse). Il devient possible d’utiliser ces images dans une édition en ligne des Ouvriers des deux mondes, tout en évitant le coût d’hébergement des images.

Aperçu des états sur le wiki Time Us [↩]
Anthony Lorry, « Les monographies des Ouvriers européens (1855, 1877-1879) et des Ouvriers des deux mondes (1857-1930). Inventaire et classification », dans Les Études sociales. Les monographies de famille de l’École de Le Play, n° 131-132, 2000, pp. 93-181, spec. p. 95 [lire en ligne ] [↩]
Liens des différents volumes sur le wiki Time Us [↩]
Voir à ce propos le billet Constitution d’un corpus textuel sur les monographies de Le Play. [↩]
Méthode du protocole HTTP permettant de demander une ressource stockée sur un serveur [documentation]. [↩]
Parser un fichier consiste à le lire et à interpréter son contenu afin d’en extraire certains éléments. [↩]

Billets

Constitution d’un corpus textuel sur les monographies de le play

11/06/2020 timeus Laisser un commentaire

Par Alix Chagué
équipe ALMAnaCH

Les Ouvriers des deux mondes est un corpus d’enquêtes sociologiques menées durant le XIXe siècle par Frédéric Le Play et ses disciples qui analysent les conditions de vie, de travail et l’économie de familles illustrant une classification établie par Le Play en fonction de critères relatifs à la nature du travail exercé par le chef de famille et au système d’engagement dans lequel il se situe¹ . Publiées par la Société Internationale des études pratiques d’économie sociale entre 1857 et 1912, en volumes ou par fascicules, ces enquêtes intéressent le projet TIME US pour plusieurs raisons :

Les monographies n° 7, 13, 20, 36 et 106 sont dédiées à des métiers du textile (tisseur, brodeuse, tailleurs d’habits, …) ;
Chaque monographie comporte un budget détaillé des dépenses du ménage et calcule la part des tâches domestiques dans ce budget. Cela permet donc d’évaluer la part du budget et du temps du ménage dévolue au textile (habits et linge, fabrication, réparation et nettoyage).

L’ensemble des enquêtes a été numérisé, volume par volume, par l’Université de Toronto et publié sur Internet Archives sous plusieurs formats. C’est là que nous les avons recensées et téléchargées.

Afin de constituer notre corpus textuel tiré des monographies de Le Play, nous avions besoin de travailler sur deux plans :

améliorer la qualité de l’OCR, en partant des fichiers image et non pas des fichiers de texte fournis par Internet Archive ;
détecter la structure sémantique des monographies dans le but de générer automatiquement une table des matières afin de naviguer facilement entre les différents chapitres des volumes, mais aussi à l’intérieur des monographies.

L’objet de ce billet est de présenter la chaîne de traitement et les outils développés pour réaliser l’extraction du texte à partir des images (transcription) et la détection de la structure sémantique du texte (structuration) afin de produire des fichiers XML permettant une édition numérique du corpus.

Récupération des fichiers images

Plusieurs formats d’images sont disponibles sur Internet Archive. Nous avons opté pour le téléchargement du format JP2, qui garantissait une qualité d’image optimale. Au total, cela représente près de 3,3 Go d’images, pour 7 190 fichiers.

Malheureusement, ces jeux d’images ne sont pas parfaitement triés et il y demeure des ratés de numérisation : pages mal cadrées, main de l’opérateur-rice sur la page, etc. Nous avons réalisé une campagne de nettoyage des jeux d’images qui a consisté à retirer ces ratés de numérisation ainsi que les images liminaires de couvertures et de page de garde. A l’issue de cette campagne, nous disposions d’un jeu de 6668 images.

Mosaïque d'images de couvertures et de pages occultées par la main de l'opérateur-rice. — Aperçu des images exclues du lot à transcrire

A l’aide du logiciel ScanTailor, nous avons dupliqué ce corpus sous une forme binarisée : en valeur de noir ou blanc. Dans certains cas, cela permet d’augmenter la qualité de la transcription automatique. Cela nous a également permis de retirer, sur les pages de titre, les inscriptions manuscrites qui gênaient l’opération de transcription.

A gauche une page de titre en couleur, à droite une page de titre en noir ou blanc sur laquelle on a retiré les mentions manuscrites due à la conservation du volume en bibliothèque. — Aperçu d’une page avant et après binarisation et retrait des éléments parasites.

Transcription

La transcription des images se déroule en deux temps : il faut d’abord détecter l’emplacement des lignes de texte sur la page, puis transcrire ces lignes à l’aide d’un modèle entraîné à reconnaître la forme des mots et des lettres. La détection des lignes de texte peut s’accompagner de la détection d’autres “objets” sur la page, comme les tableaux, les illustrations, etc. C’est ce qu’on appelle la layout analysis, l’analyse de la mise en page.

Les monographies contiennent de nombreux tableaux, dont la mise en page est parfois difficile à traiter informatiquement. Nous avions besoin de détecter leur présence sur l’image, afin de pouvoir les traiter différemment du texte.

Quelques exemples de tableaux rencontrés dans les monographies

Plusieurs solutions logicielles pour la transcription du texte imprimé étaient à notre disposition. Parmi celles-ci, en première ligne : Transkribus (que nous utilisons pour nos sources manuscrites) et Kraken. En 2018, il n’était pas possible d’obtenir une analyse de la mise en page complète avec Kraken, alors que cela est possible avec Transkribus, en particulier grâce à FineReader qu’il fournit comme un service. En revanche, il était possible d’entraîner un modèle efficace pour la transcription du texte avec Kraken et qui correspondrait à nos besoins. Nous avons donc opté pour une chaîne de traitement passant par les deux logiciels.

Un modèle de transcription a été entraîné à l’aide de Kraken à partir de la transcription de 1 300 lignes. Cela nous a permis de contrôler le jeu de caractères connu par le modèle et de limiter la quantité de “bruit” généré au moment de la transcription. Contrairement au modèle de FineReader, le modèle Kraken ainsi obtenu détecte seulement deux types de tirets , long (—) ou court (-), car ce sont les deux seuls types de tirets employés dans le texte, et détecte avec plus de précision qu’un modèle générique les lettres en exposant, comme « ^f » , « ^km » , « ^fl », etc. Les caractères spéciaux générés sont en outre réduits au minimum de ce qui apparaît réellement dans l’imprimé.

Nous avons chargé les 6 668 images dans Transkribus, lancé la détection de la mise en page à l’aide du service FineReader, puis extrait le résultat sous la forme de fichiers XML ALTO. Ces fichiers contiennent divers éléments utiles, tels que : des balises TextBlock/TextLine renvoyant les coordonnées des lignes de texte, ainsi que des balises GraphicalElement, pour les éléments graphiques, qui indiquent notamment les éléments de type « table ».

Dans le cadre d’un programme Python, chaque fichier image est associé à un fichier XML ALTO d’où sont extraits les coordonnées des lignes de texte. Pour chaque portion d’image contenant du texte, le programme déclenche la transcription à l’aide de Kraken. Le résultat est stocké dans un fichier XML TEI intermédiaire qui hérite par ailleurs d’un certain nombre de données transmises dans les fichiers XML ALTO fournis par Transkribus.

A ce stade, nous obtenons un fichier XML TEI par page, les fichiers étant regroupés dans un dossier pour chaque volume.

Le programme part des images sources collectées depuis Internet Archives. Une première étape de pré-traitement des images avec XnConvert et ScanTailor, permet de créer un set d'images corrigées non binarisées et un set d'images corrigées et binarisées. La deuxième étape de traitement consiste à détecter la mise en page avec Transkribus et FineReader. Elle utilise les images corrigées et binarisées et produit un jeu de fichiers XML ALTO. En parallèle, un modèle de transcription est entraîné avec Kraken. La dernière étape consiste à agréger tous les éléments (images corrigées et binarisées, modèle Kraken et fichiers XML ALTO) : parser les XML ALTO, ignorer les GraphicalElements, extraire des coordonnées des TextLine, transcrire les segments d'image, enregistrer le résultat dans des arbres XML-TEI enregistrés dans des fichiers JSON. — Schématisation des étapes suivies pour l’extraction du texte et des informations de mise en page

Structuration

Une analyse préalable de la structure du corpus des monographies nous a permis de déterminer une structure générique à deux niveaux :

au niveau du volume qui est composé de pages de garde, de chapitres dont certains sont plus spécifiquement des enquêtes sociologiques, ainsi qu’une table des matières.
au niveau de la monographie qui est toujours organisée selon trois niveaux de rubriques, tels que :

(A) {en-tête}. (B) Observations préliminaires définissant la condition des divers membres de la famille. I. Définition du lieu, de l'organisation industrielle et de la famille. 1. État du sol, de l'industrie et de la population. 2. État civil de la famille. 3. Religion et habitudes morales. 4. Hygiène et services de santé. 5. Rang de la famille. II. Moyens d'existence de la famille. 6. Propriétés. 7. Subventions. 8. Travaux et industries. III. Mode d'existence de la famille. 9. Aliments et repas. 10. Habitation, mobilier et vêtements. 11. Récréations. IV. Histoire de la famille. 12. Phases principales de l'existence. 13. Mœurs et institutions assurant le bien-être physique et moral de la famille. {Tableaux de budgets}. {14.} Budget des recettes de l'année. {15.} Budget des dépenses de l'année. {16.} Comptes annexés aux budgets. I. Comptes des bénéfices. II. Comptes relatifs aux subventions. III. Comptes divers. {C}. Notes/Éléments divers de la constitution sociale (à partir de la 2e série, les rubriques sont numérotées à partir de "§ 17"). — Structure interne des enquêtes

La détection automatique de la structure des volumes passe en tout premier lieu par la détection des chapitres. Pour détecter les limites d’un chapitre, nous identifions les pages de titre, qui en marquent le début ainsi que, par déduction, la fin d’un chapitre précédent. Pour chaque page de titre détectée, nous déterminons, à partir de mots-clefs trouvés sur la page, s’il s’agit de la page de titre d’une monographie. Nous regroupons ensuite les pages depuis une page de titre jusqu’à la page précédent une autre page de titre.

Pour les chapitres identifiés comme des monographies, nous recherchons des titres des rubriques. Ils sont toujours identiques d’une monographies à l’autre² , mais leur transcription peut être fautive. C’est la raison pour laquelle nous utilisons une comparaison par distance d’édition avec une tolérance adaptée de déviation par rapport au titre attendu (distance de Levenshtein).

La structure logique détectée est transposée dans l’arbre XML TEI sous la forme d’éléments « div ». Pour chaque volume, un fichier rassemble désormais l’ensemble des transcriptions disponibles.

Autres traitements

A ce stade, les fichiers ne sont pas encore près pour faire l’objet d’une édition numérique car il reste encore à corriger la transcription, à intégrer un certain nombre de métadonnées collectées par l’équipe de l’EHESS et à optimiser les fichiers en vue d’une navigation facilitées dans les documents. Nous aborderons tout cela dans de prochains billets.

Afin de rendre compte des possibilités déjà offertes par cet état des fichiers, un prototype minimal de consultation des documents a été réalisé à partir de la transcription du premier volume, sous la forme d’un fichier HTML hébergé sur un serveur Heroku. Dans ce prototype, une table des matières est générée automatiquement à partir des titres détectés dans le fichier XML-TEI. Grâce à un système d’ancres et de renvois, cela permet d’atteindre directement telle ou telle portion du volume. En outre, pour chaque tableau (ils ne sont pas transcrits) une icône permet d’accéder à l’image de la page correspondante, ce qui permet à l’utilisateur de consulter le contenu du tableau.

➡️ Voir le prototype.

Lécuyer Bernard-Pierre. Frédéric Le Play, fondateur de la « science sociale ». In: Communications, 54, 1992. Les débuts des sciences de l’homme. pp. 39-51. [↩]
Malgré quelques variations de mise en page dans les volumes les plus tardifs : par exemple, alors que dans les premiers volumes les titres de paragraphes sont toujours notés sur une seule ligne (« § 2. – État civil de la famille. »), dans les volumes de la troisième série, ils sont écrits sur deux lignes (« § 2. » puis « État civil de la famille. »). [↩]

Billets

Mise en ligne d’une interface de consultation des transcriptions parisiennes

24/07/2019 timeus Laisser un commentaire

L’équipe de recherche Time-Us a mis en ligne une interface de consultation des transcriptions réalisées sur les minutes du conseil de Prud’hommes de Paris pour le textile pour la seconde moitié du XIX^e siècle.

Cette interface permet de rendre compte du travail de structuration automatique déployé sur ces transcriptions. Elle a été produite par Victoria Le Fourner, étudiante en deuxième année du Master TNAH de l’École nationale des chartes, dans le cadre de son stage de fin d’études pour le projet Time Us au sein de l’équipe ALMAnaCH à Inria.

http://timeusage.paris.inria.fr/prudhommes-paris-19e/

Billets

ScanTent, DocScan et Transkribus : retour d’expérience sur le cas des prud’hommes de la Seine.

17/06/2019 timeus Un commentaire

Une présentation proposée par Kévin Champougny.

Dans le cadre du projet TIME-US, les archives prud’homales représentent des sources particulièrement riches, que ce soit pour les questions de salaire, les conditions de travail ou encore la répartition géographique des ouvriers et employeurs. S’il est possible de faire ressortir ces informations en recourant à un traitement informatique, il est nécessaire pour cela d’effectuer la numérisation des registres des procès, de les transcrire manuellement puis, si besoin, de corriger les transcriptions automatiques. Ce billet a pour objectif de présenter ces différentes étapes tout en revenant sur l’expérience des logiciels (DocScan¹ et Transkribus) et instruments (ScanTent²) utilisés lors du traitement du registre D1U10-379.

I/ Présentation du registre D1U10-379

Si les Conseils des Prud’hommes sont officiellement créés en 1806, ils ne font leur première apparition à Paris qu’en 1844, ne concernant alors que l’industrie des métaux. Il faut attendre l’ordonnance royale du 9 juin 1847 pour voir la création du Conseil pour l’industrie des tissus de la Seine^³.

Le registre D1U10-379, qui rassemble les procès du 8 octobre 1847 au 7 décembre 1849, est ainsi le premier registre des jugements rendus par ce Conseil. La lecture des affaires du 24 décembre 1847 au 19 mai 1848 laisse apparaître qu’un seul secrétaire, Me Corbin, est chargé de la mise par écrit des procès. Cela permet donc de retrouver une écriture plus ou moins constante tout au long du registre, facilitant ainsi la transcription manuelle et automatique.

Les tentatives de Me Corbin pour faire tenir autant que possible chaque affaire sur une unique page représente, par ailleurs, un avantage inattendu. En effet, lors de la transcription manuelle et le temps de s’habituer à l’écriture, il s’avère important de pouvoir comparer les différentes graphies des termes revenant fréquemment. Or, les noms des parties parcourent chaque affaire et sont mentionnés assez souvent pour permettre une telle comparaison.

II/ La numérisation avec la ScanTent et DocScan.

Les registres des prud’hommes ne pouvant pas être sortis des archives départementales de Paris, il est de ce fait obligatoire de les numériser en les photographiant directement sur place. Afin d’obtenir des copies numériques de bonne qualité, nous avons souhaité faire usage de la ScanTent. Elle pose cependant un inconvénient : étant constituée d’une tente en toile cirée noire, elle cache, à quiconque désirant observer, les manipulations des sources à moins de se placer derrière la personne qui effectue les photographies. L’impossibilité de surveiller la manipulation des registres a généré des inquiétudes chez les archivistes. Toutefois, avec leur aimable autorisation, j’ai pu expérimenter la ScanTent à titre exceptionnel.

L’appareil est simplement constitué d’une lampe LED, d’une toile, d’un plateau sur lequel est posé un téléphone et de quatre tiges métalliques qui forment l’armature. Il est donc facilement démontable et transportable. Seul le montage peut s’avérer légèrement compliqué le temps de prendre le coup de main nécessaire pour encocher chaque tige convenablement dans les coins de la toile. Autrement, et même sans schéma, il est aisé de comprendre comment s’emboîtent les éléments.

Il est recommandé d’avoir avec soi un ordinateur ou un adaptateur pour prise, le branchement de la lampe LED se faisant par USB. Une fois la ScanTent montée, il suffit de poser son téléphone sur la plateforme pour pouvoir photographier les sources. Deux options sont alors possibles : nous pouvons tout simplement recourir à l’application appareil photographique du téléphone, ou utiliser l’application DocScan. Pour la numérisation du registre D1U10-379, j’ai opté pour cette dernière.

L’avantage de DocScan est de proposer une synchronisation avec un compte Transkribus, permettant ainsi de directement mettre en ligne les photographies et de les transcrire aussitôt. Toutefois, l’application peut s’avérer difficile à prendre en main, à première vue, par rapport à l’application de photographie du téléphone qui est plus familière. En effet, la mise au point automatique proposée par DocScan peut se révéler capricieuse et lente à obtenir : alors même que le téléphone et le registre sont restés disposés de la même façon durant tout le processus de numérisation, chaque changement de page entraînait automatiquement la nécessité de refaire la mise au point. Certaines pages présentaient davantage de difficultés, il n’est pas à exclure de préférer avoir recours à l’appareil photographique du téléphone pour gagner du temps. Force est de reconnaître malgré ce point que les clichés obtenus par DocScan sont de loin de bien meilleure qualité et bien plus nets.

Recadrer une photo de manière à supprimer les marges est essentiel pour optimiser la qualité de la transcription automatique obtenu ultérieurement. DocScan prévoit un outil pour recadrer la photographie avant son enregistrement, mais cela nous a posé un problème. En effet, recadrer une image entraîne automatiquement la suppression de l’original. Il faut alors reprendre une photo de la page dans le cas d’une mauvaise manipulation ou si on exprime la volonté d’avoir une page de registre par photographie. Nous avions choisi de conserver les deux versions de l’image, ce qui a rendu nécessaire la réorganisation manuelle des photos afin de les reclasser dans l’ordre. Ce fait explique notamment pourquoi, lors de la numérisation du registre D1U10-379, la mise en ligne des photographies sur Transkribus a nécessité une correction manuelle préalable.

Les clichés obtenus grâce à DocScan sont nets et correctement éclairés. Même si la phase de recadrage manuel prend du temps, en définitive, la tâche de transcription est plus aisée car on distingue plus précisément l’écriture de Me Corbin.

III/ La transcription des sources sur Transkribus

Une fois les sources numérisées, il est temps de les transcrire sur Transkribus^⁴.

Avant de pouvoir effectuer une transcription automatique via OCR, la première tâche consiste à transcrire un nombre suffisant de pages dans le but d’établir des données d’entraînement. Dans le cas du registre D1U10-379, la transcription a porté sur 44 pages et a consisté à recopier fidèlement, ligne après ligne, ce qui est écrit dans le registre : mots, chiffres, ponctuation, symboles divers,… Pour cela, il est primordial d’effectuer auparavant la segmentation, c’est-à-dire la reconnaissance des zones de texte, des pages que l’on traite. Elle peut se faire automatiquement ou manuellement. Il est également possible de corriger manuellement le résultat de la segmentation automatique.

L’orientation de l’image est cruciale pour éviter que les erreurs de segmentation. Il est alors nécessaire de corriger les métadonnées EXIF des photographies avec un logiciel tel que XnView^⁵ et de recharger les clichés sur Transkribus. La manipulation est simple et permet de retrouver une segmentation correcte.

La transcription manuelle consiste ensuite simplement à recopier ce que nous pouvons lire sur plusieurs pages du registre. Précisons seulement qu’il peut s’avérer important de repérer les expressions et les mots les plus fréquemment utilisés par le secrétaire (dans le cas de notre projet, il s’agit surtout des expressions juridiques et de certains noms) afin de s’habituer au tracé des lettres.

Les données d’entraînement générées grâce à la transcription automatique permettent de produire un modèle de transcription (HTR) qui est ensuite appliqué par l’intermédiaire du logiciel Transkribus à des pages non transcrites. En fonction du taux d’erreur atteint, il peut être nécessaire de produire de nouvelles transcriptions manuelles afin d’améliorer le modèle : en partant de zéro ou bien en corrigeant le résultat des passages d’HTR. Nous avons pu constater, lors de la correction d’un modèle utilisé sur le registre D1U10-386 des prud’hommes de Paris, qu’une grande part des erreurs de la transcription automatique provient du chevauchement de certaines lettres sur les lignes inférieures. Ainsi, la boucle inférieure d’un f » peut être interprétée comme un « l » ou un signe de ponctuation quelconque à la ligne suivante.

1 Lien pour télécharger l’application : https://play.google.com/store/apps/details?id=at.ac.tuwien.caa.docscan

2 Pour plus d’informations sur l’appareil, voir le lien suivant : https://scantent.cvl.tuwien.ac.at/en/#titlepage

3 LAINÉ Brigitte, Conseil de Prud’hommes de la Seine, 1844-1940 (1762-1971), Archives de Paris, avril 2010, p. 8.

4 Pour de plus amples informations sur le fonctionnement de ce logiciel, se référer au billet suivant : https://timeus.hypotheses.org/458

5 Disponible au téléchargement à cette adresse : https://www.xnview.com/fr/

Billets

Les archives des Prud’hommes de la Seine pour l’industrie des tissus : Quelles informations pouvons-nous en tirer ?

18/04/2019 timeus Laisser un commentaire

Une présentation proposée par Kévin Champougny.

En effectuant la transcription manuelle du registre D1U10-379 (1847-1848) ainsi que la correction de la transcription automatique d’une partie du registre D1U10-386 (1858), nous avons pu par la même occasion analyser quelques affaires. Il s’agit d’un traitement partiel ne concernant pas l’ensemble des deux registres mais seulement des passages précis : soit 36 affaires ayant lieu entre décembre 1847 et mai 1848 et 24 affaires pour mai-juin 1858. Les tendances observables dans ces passages sont à prendre avec précaution en attendant une analyse plus poussée de l’ensemble des registres, mais nous pouvons toutefois présenter quelques particularités de ces fonds.

I. La structure des registres

Avant de progresser davantage, il est important de revenir sur l’organisation interne de ces archives.

Les registres sont organisés par audiences qui, en temps normal, se tiennent le vendredi sur un rythme hebdomadaire. Au cours de chacune d’elle, une ou plusieurs affaires sont présentées et débattues devant le Bureau Général. Celui-ci juge en dernier ressort les affaires pour lesquelles les parties n’ont pas pu trouver de terrain d’entente devant les Bureaux Particuliers.

Pour chaque affaire nous avons une structure similaire : le secrétaire présente les parties du procès (demandeurs et défendeurs) en précisant leurs noms, qualités et adresses. Une fois cette présentation effectuée, un rappel du déroulé des audiences précédentes devant les Bureaux Particuliers a lieu. C’est durant cette partie que nous pouvons obtenir des informations sur l’objet des litiges et les argumentaires de chaque partie. Toutefois, nous pouvons souligner que ces passages, qui sont pourtant les plus riches en informations pour TIME-US puisqu’ils reviennent en détail sur la question des salaires et des tâches de production, présentent un intérêt principalement quand le défendeur (l’accusé) comparaît devant le tribunal. Après le rappel des faits et des argumentaires, intervient le point de droit : les questions juridiques auxquels les prud’hommes doivent apporter une réponse. Ensuite, les arguments des juges sont donnés et aboutissent sur la conclusion de l’affaire.

Si la structure ici présentée reste identique entre 1848 et 1858, des évolutions sont toutefois constatables sur la forme.

II. 1848-1858 : différences et similitudes

Les différences que nous pouvons constater entre les deux registres proviennent principalement du fait que le registre de 1848 et les affaires qu’il présente sont les premières du tribunal des prud’hommes du département de la Seine pour l’industrie des tissus. Contrairement à la rédaction presque mécanique du registre de 1858 et de son secrétaire M. Lecucq, la rédaction de M. Corbin, secrétaire pour 1848, est moins machinale. Si les différences sont parfois minimes et le sens reste profondément le même, cela témoigne néanmoins d’une différence dans le degré de formalisation des deux secrétaires.

Mais outre cet aspect, nous constatons aussi une période d’adaptation du public face à cette nouvelle institution. Cela peut se mesurer de deux façons. La première repose sur une comparaison portant sur le nombre d’affaires par audience : entre le 24 décembre 1847 et le 19 mai 1848, le tribunal des prud’hommes traite un total de 36 affaires sans oublier l’audience du 8 octobre 1847 (on compte alors 3 affaires par audience), contre 24 affaires sur la période du 28 mai 1858 au 18 juin 1858 (entre 5 et 8 affaires par audience). Les révolutions de 1848 ont pu jouer un rôle important dans la différence du nombre d’affaires par audience entre les deux années, toutefois il semble que cette dernière provienne davantage du fait que, pour la première période, recourir aux Prud’hommes ne serait pas encore totalement intégré dans les mœurs. En reprenant un calendrier des audiences tenues entre le 8 octobre 1847 et le 7 décembre 1849, nous constatons que trois seulement ont pu suivre un rythme hebdomadaire (les 26 novembre, 3 décembre et 24 décembre 1847) tandis que les autres voient généralement deux semaines s’écouler entre elles. A contrario, 8 audiences se sont même tenues plus de deux semaines après la précédente.

L’autre critère pouvant possiblement attester d’une appropriation de ce tribunal par le public provient du nombre d’affaires présentant une non-comparution du défendeur (l’accusé) : cela concerne ainsi 26 affaires sur 36 en 1848 contre 13 affaires sur 24 en 1858. Si l’absence de comparution aboutit automatiquement sur la victoire du demandeur, elle nous prive pourtant souvent d’explication et de détails sur le cœur de l’affaire.

III. Deux exemples intéressants pour TIME-US

Les affaires présentant le plus grand intérêt pour TIME-US sont celles qui offrent une confrontation entre les parties. Les ouvriers et les maîtres doivent alors revenir sur l’objet du litige en apportant des précisions sur les salaires et les conditions de travail mais aussi présenter leurs arguments, permettant ainsi d’accéder à des informations sur les pratiques courantes dans le milieu ou encore sur la qualité de la production.

Nous proposons, à titre d’exemple, de revenir sur deux affaires particulièrement riches en informations.

L’affaire opposant les époux Barbet aux époux Maison du 11 février 1848, intervient après le départ de l’épouse Barbet des ateliers des Maison suite à un différend avec ceux-ci. Les ouvriers Barbet demandent le paiement du solde que leur doivent les Maison pour le travail effectué, mais ces derniers s’opposent à la somme demandée et expliquent, comptes à l’appui, qu’ils sont au contraire créanciers. Suivent alors deux séries de comptes, une effectuée par les Maison et l’autre par les juges des prud’hommes, où sont détaillés les avantages et les salaires dont ont pu bénéficier les Barbet pour leur travail.

Le 24 mars 1848, une affaire oppose les époux Chereau, ouvriers châliers, à M. Fretille, fabricant de châle, qui aurait refusé de payer une somme avoisinant les 6000 francs. Suite à la non-comparution du défendeur, les Chereau remportent le procès. Afin de permettre un remboursement plus rapide de la somme, le Bureau Général établit un inventaire complet des matières premières, produits finis et aussi des outils de travail pouvant être vendus lors d’une vente aux enchères. Par cette affaire, nous obtenons donc un aperçu de la matérialité de la profession de châlier au XIXe siècle.

IV. Logement, genre : d’autres informations des Prud’hommes

Les archives des Prud’hommes mettant en lumière des problèmes du monde du travail, ceux des ouvriers comme ceux des patrons, elles permettent aussi d’accéder parfois à l’histoire sociale des individus.

La présentation des parties offre ainsi, par exemple, la possibilité de retracer les conditions de logement des ouvriers parisiens : les quartiers qu’ils habitent, le déplacement des ruraux qui viennent s’établir à Paris (mouvement notamment visible dans le cas des apprentissages où figure le domicile familial) ou encore s’ils sont hébergés par autrui.

Nous pouvons aussi, rarement, croiser l’expression des sentiments des classes populaires. C’est par exemple le cas de l’affaire Pajot contre Beuret du 28 mai 1858 dans laquelle l’apprentie, Valérie Pajot, exprime sa détermination à vouloir mettre un terme à la punition imposée par son maître qui l’a mise au pain sec et à l’eau. M Pajot, le père de l’apprentie, tente ainsi de trouver un accord avec l’épouse du maître : il propose d’user de son autorité parentale pour faire rentrer sa fille dans les ateliers à condition que les Beuret puissent « consentir à ne pas persévèrer [sic] dans son exigence à l’égard d’une punition que l’apprentie refusait à supporter à cause de l’humiliation qu’on voulait lui faire subir »^¹. Autre expression de sentiments, bien que d’une autre forme, la demande de rupture de contrat auprès des Bureaux Généraux le 11 février 1848 (accompagnée d’une demande de dommages-intérêts) suite aux « familiarités »^² qu’entretiennent une apprentie, Anna Clotilde Simonet, et le frère de sa maîtresse, la Comtesse de Marsac, fabricante de fleurs.

Enfin une étude sous le prisme du genre dans les décisions des prud’hommes semble aussi particulièrement intéressante. Ainsi, sur les 36 affaires de l’année 1848 traitées à ce stade, nous observons que les femmes constituent 35% des demandeurs (soit 14 sur 41 demandeurs) : 5 femmes agissent en leur nom propre, tandis que les autres sont « assistées et autorisées » par leurs époux. Toutefois, dans les cas étudiés, le critère de genre ne semble pas entrer en compte dans le résultat du jugement : aucune différence concrète ne peut être constatée par rapport aux hommes. Autre résultat, les demandeurs, hommes comme femmes, ont gain de cause dans 97% des affaires ayant lieu sur la période étudiée en 1848 : le critère le plus déterminant pour obtenir un jugement positif repose donc sur le fait d’être le demandeur devant les Bureaux.

1 Registre D1U10-386, Archives départementales de la Seine, audience du 28 mai 1858, Affaire Pajot contre Beuret.

2 Registre D1U10-379, Archives départementales de la Seine, audience du 11 février 1848, Affaire Simonet contre De Marsac.

Billets

Wiki Time-Us

03/05/2018 timeus Laisser un commentaire

L’équipe de recherche Time-Us a mis en place un wiki dédié aux sources du projet et à leur traitement numérique. Les inventaires des sources collectées dans le cadre du programme ANR, un guide d’utilisation du logiciel de transcription Transkribus et un guide d’annotation des archives sont disponibles ICI.

Billets

Compte rendu de la formation au logiciel Transkribus (INRIA)

22/02/2018 timeus 3 commentaires

Compte rendu de la formation Transkribus

« Transcription, annotation, reconnaissance d’écriture manuscrite, prise en main »

INRIA – Paris

15 février 2018

Formation organisée et menée par Charles Riondet (Ingénieur de recherche – INRIA)

Organisée sur une matinée, la formation pour l’utilisation de Transkribus a rassemblé les membres du projet Time-US. Elle s’est articulée autour de deux moments : la présentation de Transkribus et une première prise en main du logiciel par les participants.

Présentation de Transkribus

Transkribus a été développé dans le cadre du projet européen READ (Recognition and Enrichment of Archival Documents), dont l’enjeu est de rendre plus accessibles d’importants corpus d’archives. Le logiciel de transcription automatique Transkribus permet la reconnaissance de l’écriture manuscrite tout alphabet confondu, des structures de mise en page, et des documents écrits à plusieurs main. Il permet également l’annotation d’archives.

Fonctionnement de Transkribus

La reconnaissance du texte se fait ligne par ligne, et non par caractères. Pour une retranscription automatique, il est nécessaire d’entraîner les algorithmes. A cette fin, Transkribus est efficient pour la retranscription d’un grand nombre de documents ayant une structure et une écriture similaires. Pour entraîner le logiciel, il est nécessaire de disposer d’une transcription d’au minimum 50 pages, ou 1000 lignes complètes.

Pour exemple, les porteurs du projet « Transcribe Bentham » ont entrepris la transcription, avec l’aide du logiciel, des manuscrits écrits par Bentham et ses secrétaires. Environ 900 pages ont été retranscrites, ce qui a permis d’entraîner un modèle efficace (un taux d’erreurs compris entre 5 à 10%).

Transkribus fonctionne aussi sur des tapuscrits, et requiert un entraînement plus limité du logiciel. Les résultats de la transcription automatique comprennent un taux d’erreurs moindre, entre 1 à 2%.

Une fois les archives transcrites, il est possible d’exporter les documents en plusieurs formats, dont .pdf, et .xml permettant l’encodage des textes.

Utilisation de Transkribus

Pour commencer la retranscription via Transkribus, il est indispensable de créer un compte personnel https://transkribus.eu/Transkribus/ ou de se connecter à l’adresse suivante https://transkribus.eu/read

Pour apprendre à utiliser Transkribus, se référer à :

https://learn.transkribus.eu

https://transkribus.eu/wiki/index.php/Main_Page

https://transkribus.eu/wiki/images/7/77/How_to_use_TRANSKRIBUS_-_10_steps.pdf

https://www.youtube.com/watch?v=GjChcDExshU&feature=youtu.be

Les archives transcrites dans le cadre du projet Time-Us seront bientôt disponibles sur le wiki: http://timeusage.paris.inria.fr/mediawiki/index.php/Accueil

Billets

Présentation du programme de recherche TIME-US

30/03/2017 timeus Un commentaire

Ce carnet de recherche s’inscrit dans le programme TIME-US, porté par l’ANR. Ce projet a pour but de reconstituer les rémunérations et les budgets temps des travailleuses et des travailleurs du textile dans quatre villes industrielles françaises (Lille, Paris, Lyon, Marseille) dans une perspective européenne et de longue durée. En réunissant en une seule équipe pluridisciplinaire des historiens des techniques, de l’économie et du travail, des spécialistes du traitement automatique des langues et des sociologues spécialistes des budgets familiaux, il vise à donner des clés pour comprendre le gender gap en analysant les mutations du travail et la répartition du temps et des tâches au sein des ménages pendant la première industrialisation. Les enjeux de ce carnet de recherche sont multiples. Il s’agit en premier lieu de présenter l’équipe de recherche engagée dans le projet TIME-US, de diffuser et de valoriser les évènements scientifiques organisés dans le cadre de ce programme (journées d’étude, séminaires, colloques) . Il s’agit en second lieu de mettre en valeur la dynamique scientifique pluridisciplinaire mise à l’œuvre pour porter ce projet. A travers cette interface, nous souhaitons enfin rendre compte régulièrement de l’avancée de nos recherches à travers la publication de sources commentées. Destiné principalement à la communauté scientifique, le carnet de recherche TIME-US vise par ailleurs un lectorat plus large par un effort de vulgarisation de ses résultats.

Programme

9 septembre 2021

Matin

Introduction

Session 1. Éditer et traiter des sources qualitatives sur le travail dans le textile

Après-Midi du 9 septembre 2021

Session 2. Organisation du travail, hiérarchies sociales et relations de genre dans la longue durée

10 septembre 2021

Matin

Session 3. Modes de rémunération, division du travail et définition du salaire dans l’industrie textile

Après-midi 10 septembre 2021

Session 4. Budgets, domesticité, usages du temps

Discussion générale

Soies et soieries. Métiers, échanges et production dans une perspective euro-asiatique du XVIIe au milieu du XXe siècle

Programme

Matin

Après-midi

Un modèle d’encodage en XML-TEI

Vers une génération semi-automatique du corpus

Premières analyses textuelles

Les images : stockage local ou distant ?

Recherche des urls

Le script de substitution

Conclusion

Récupération des fichiers images

Transcription

Structuration

Autres traitements

I/ Présentation du registre D1U10-379

II/ La numérisation avec la ScanTent et DocScan.

III/ La transcription des sources sur Transkribus

I. La structure des registres

II. 1848-1858 : différences et similitudes

III. Deux exemples intéressants pour TIME-US

IV. Logement, genre : d’autres informations des Prud’hommes

Travail, rémunération, textile et foyer (XVIIe-XXe siècle)