CHI-KNOW-PO – Chinese Knowledge and Poetry in Medieval China
Ce billet présente brièvement un des projets-cœurs du consortium distam+.
Résumé
Le projet CHI-KNOW PO est porté par Marie Bizais-Lillig à l’Université de Strasbourg. Ce projet vise à documenter les pratiques textuelles dans la culture lettrée de la deuxième moitié du premier millénaire en Chine sachant que les lettrés, qui remplissent des fonctions administratives et militaires au sein de l’empire, sont les auteurs de poèmes, de décrets, d’archives historiques, d’essais, ou encore d’ouvrages techniques. L’étude d’un corpus hétérogène mêlant ces différents genres d’écrits devrait permettre de comprendre comment les savoirs circulent et si des savoirs spécifiques (sur les plantes par exemple) apparaissent dans des genres différents.
Le projet se compose de trois volets :
- Constitution d’un corpus de textes composés pour l’essentiel pendant le premier millénaire en Chine. Cette étape s’appuie, en amont, sur le développement de technologies de reconnaissance des textes sur les pages d’ouvrages anciens conservés dans des bibliothèques. Le partage sous licence ouverte des images des livres et d’une édition structurée des textes s’accompagne d’une publication en ligne du corpus afin d’assurant tant sa réutilisabilité que son accessibilité.
- Développement d’une base de données bio-biblio-lexicographique servant à documenter le corpus et les termes utilisés (les champs lexicaux de la faune, la flore, les phénomènes naturels et les sentiments et émotions en particulier). Cette base de connaissances complète les bases de données déjà existantes. Elle permet d’enrichir le corpus lors du processus d’édition en XML-TEI. Elle contribue aussi à affiner l’exploration du corpus.
- Développement de scripts de fouille de texte afin de répondre à des questions de recherche :
- quels sont les textes les plus cités ou les plus repris à une période donnée ?
- comment évoluent certaines formes de discours, comme le discours argumentatif ou le vocabulaire poétique par exemple ?
- dans quelle mesure les grands domaines de savoir se rencontrent-ils dans les écrits ?
- dans quelle mesure la poésie contribue-t-elle à la circulation des savoirs, à commencer par les savoirs — agricoles ou médicinaux — sur les plantes ?
Les deux premiers volets de ce projet ont été mis en œuvre entre 2020 et 2025 (GEO, USIAS, Collex-Persée, distam) et constituent le socle du troisième volet qui concentre l’essentiel de l’intérêt scientifique pour la communauté des sinologues.
En savoir plus sur les étapes précédentes et les réalisations associées :
- Les données d’entraînement pour l’ATR : sur Zenodo, sur Hugging Face
- La base de données : une présentation, les données, une interface de requêtage
- La documentation du projet (et ses outils) : dans le dépôt GitLab
- La bibliothèque médiévale chinoise en ligne : Chinese Knowledge and Poetry Medieval Library
Objectifs
Apports scientifiques :
- Proposer des analyses du discours lettré de la Chine du premier millénaire sur la base de larges corpus (et non des études de cas qui pourraient être des cas relativement isolés)
- Enrichir l’histoire intellectuelle de la Chine du premier millénaire
- Contribuer à la réflexion sur les impacts du recrutement des lettrés fonctionnaires par voie de concours sur l’éducation, la circulation des textes et la spécialisation des lettrés
Innovation :
- Affinage de modèles de langue (SikuBERT et autres dérivés de BERT notamment, LLM si besoin) pour les appliquer aux textes (prose, poésie, si besoin des genres spécifiques) de la Chine du premier millénaire
- Tests de RAG sur des pans du corpus
- Exploration des collocations et tests de topic modelling
- Visualisations sous la forme de réseaux sémantiques
Jeux de données :
- Corpus en XML-TEI (largement constitué, encore en cours pour les encyclopédies et dictionnaires)
- Base de données bio-bibliographique et lexicale
Domaines dans distam+ :
- acquisition, modélisation et partage
- philologie multimodale
Mots clefs :
Culture lettrée, Chine du premier millénaire, ATR, Édition en XML-TEI, Text mining
Personnes référentes et institution de rattachement :
- Marie Bizais-Lillig (Université de Strasbourg)
Bannière: Reprise séquentielle de texte visualisée avec l’Overlap Tracker du projet CHI-KNOW-PO
OpenEdition vous propose de citer ce billet de la manière suivante :
nlucas (20 avril 2026). CHI-KNOW-PO – Chinese Knowledge and Poetry in Medieval China. Carnet hypothèses du consortium Huma-Num distam+ (DIgital STudies Africa, Asia, Middle East). Consulté le 5 mai 2026 à l’adresse https://doi.org/10.58079/163n2

