{"id":22930,"date":"2025-12-10T07:59:28","date_gmt":"2025-12-10T05:59:28","guid":{"rendered":"https:\/\/distam.hypotheses.org\/?p=22930"},"modified":"2025-12-10T08:03:06","modified_gmt":"2025-12-10T06:03:06","slug":"de-quelques-choix-lors-du-depot-des-donnees-introduction-1-4","status":"publish","type":"post","link":"https:\/\/distam.hypotheses.org\/22930","title":{"rendered":"De quelques choix lors du d\u00e9p\u00f4t des donn\u00e9es : introduction (1\/4)"},"content":{"rendered":"\n<p><bdo lang=\"fr\" dir=\"ltr\">Cette s\u00e9rie de billets est consacr\u00e9e au d\u00e9p\u00f4t dans un entrep\u00f4t de confiance. Nous avons choisi <a href=\"https:\/\/nakala.fr\/\" data-type=\"link\" data-id=\"https:\/\/nakala.fr\/\">Nakala<\/a>, l&#8217;entrep\u00f4t des donn\u00e9es en sciences humaines et sociales propos\u00e9 par l&#8217;<a href=\"https:\/\/www.huma-num.fr\/\">IR* Huma-Num<\/a>, mais bien d&#8217;autres choix sont possibles.<\/bdo><\/p>\n\n\n\n<p><bdo lang=\"fr\" dir=\"ltr\">Pour <strong>choisir son entrep\u00f4t<\/strong><\/bdo><sup data-fn=\"ad2facf0-f165-4178-8ec7-9c33d2183aa0\" class=\"fn\"><a href=\"#ad2facf0-f165-4178-8ec7-9c33d2183aa0\" id=\"ad2facf0-f165-4178-8ec7-9c33d2183aa0-link\">1<\/a><\/sup><bdo lang=\"fr\" dir=\"ltr\">, on peut s&#8217;appuyer sur la <a href=\"https:\/\/hal-lara.archives-ouvertes.fr\/OUVRIR-LA-SCIENCE\/hal-04534321v1\">note m\u00e9thodologique<\/a> \u00e9tablie par le Coll\u00e8ge Donn\u00e9es de la recherche du Comit\u00e9 pour la science ouverte en 2024 ou sur la <a href=\"https:\/\/doranum.fr\/depot-entrepots\/depot-et-entrepots-fiche-synthetique_10_13143_a3d4-7553\/\">fiche synth\u00e9tique <\/a>publi\u00e9e sur Doranum. On peut aussi parcourir les listes d&#8217;entrep\u00f4ts disponibles, qu&#8217;il s&#8217;agisse de <a href=\"https:\/\/recherche.data.gouv.fr\/fr\/entrepots\">la liste mise \u00e0 jour en 2025<\/a> par le Comit\u00e9 pour la science ouverte, ou <a href=\"https:\/\/www.re3data.org\/\">l&#8217;annuaire re3data<\/a>. Cela est particuli\u00e8rement int\u00e9ressant dans le cas des entrep\u00f4ts th\u00e9matiques, comme l&#8217;avait soulign\u00e9 Louis Mani\u00e8re lors de <a href=\"https:\/\/distam.hypotheses.org\/3982\">son intervention<\/a> pendant l&#8217;\u00e9cole d&#8217;\u00e9t\u00e9 Distam 2022. Il n&#8217;existe pas d&#8217;entrep\u00f4t sp\u00e9cialis\u00e9 dans les \u00e9tudes ar\u00e9ales dont la particularit\u00e9 ne tient pas tant \u00e0 la nature des donn\u00e9es (qui sont dans des formats standards) qu&#8217;aux questions que posent les m\u00e9tadonn\u00e9es qu&#8217;on leur associe <strong>\u2014<\/strong> questions li\u00e9es \u00e0 la documentation multi\u00e9critures et multilingue ainsi qu&#8217;aux lacunes des r\u00e9f\u00e9rentiels occidentalo-centr\u00e9s.<\/bdo><\/p>\n\n\n\n<p>Une fois l&#8217;entrep\u00f4t choisi, on proc\u00e8de \u00e0 <strong>l&#8217;organisation des donn\u00e9es<\/strong>. En effet, d\u00e8s lors que l&#8217;on d\u00e9passe la dizaine d&#8217;\u00e9l\u00e9ments \u00e0 d\u00e9poser,il convient de r\u00e9fl\u00e9chir \u00e0 la mani\u00e8re dont on va les d\u00e9poser. Ce choix d\u00e9pendra des fonctionnalit\u00e9s que propose l&#8217;entrep\u00f4t. Par exemple, Zenodo offre la possibilit\u00e9 d&#8217;organiser les d\u00e9p\u00f4ts en arborescence (\u00e0 la mani\u00e8re des arbres de r\u00e9pertoires et de fichiers de nos ordinateurs), ce n&#8217;est pas le cas de Nakala. <\/p>\n\n\n\n<p><strong>Nakala<\/strong> se caract\u00e9rise par une <strong>gestion par d\u00e9p\u00f4t<\/strong> (et non par fichier). \u00c0 chaque d\u00e9p\u00f4t, qui peut \u00eatre multfichiers, est associ\u00e9 un DOI (digital object identifier). Le d\u00e9p\u00f4t peut \u00eatre signal\u00e9 dans une ou plusieurs <strong>collections<\/strong>, il ne dispara\u00eetra pas, m\u00eame si la collection est supprim\u00e9e. \u00c0 quoi cela peut-il servir ? Dans le cas du projet <a href=\"https:\/\/www.usias.fr\/de\/fellows\/fellows-2021\/marie-bizais-lillig\/\">CHI-KNOW-PO<\/a>, le corpus comprend plusieurs dizaines de milliers de fichiers images (\u00e0 l&#8217;\u00e9chelle de la page ou de la double page selon la source) et un nombre comparable de fichiers textes (correspondant cette fois \u00e0 des unit\u00e9s textuelles coh\u00e9rentes). Afin de pouvoir mettre en correspondance les deux jeux de fichiers, le corpus a \u00e9t\u00e9 d\u00e9coup\u00e9 en grandes sections de textes  <strong>\u2014<\/strong>  des chapitres, des  rouleaux ou sections juan, des volumes. Chaque grande section est d\u00e9pos\u00e9e en image ou en texte sous la forme de deux d\u00e9p\u00f4ts qui partagent partiellement le m\u00eame titre<sup data-fn=\"4048045f-2ead-4b14-a2cf-558118b95365\" class=\"fn\"><a href=\"#4048045f-2ead-4b14-a2cf-558118b95365\" id=\"4048045f-2ead-4b14-a2cf-558118b95365-link\">2<\/a><\/sup>. L&#8217;ensemble des d\u00e9p\u00f4ts correspondant \u00e0 un ouvrage est r\u00e9uni dans un collection. Parall\u00e8lement, tous les d\u00e9p\u00f4ts du projet sont rattach\u00e9s \u00e0 la grande collection &#8220;CHI-KNOW-PO&#8221; :<\/p>\n\n\n\n<p class=\"has-text-align-center\"><img loading=\"lazy\" decoding=\"async\" width=\"1189\" height=\"847\" class=\"wp-image-23002\" style=\"width: 800px\" src=\"https:\/\/distam.hypotheses.org\/files\/2025\/12\/orga_fichiers_ckp_nakala_v3.jpg\" alt=\"Organisation des d\u00e9p\u00f4ts en correspondance texte-image, section par section, et int\u00e9gration \u00e0 l'int\u00e9rieur des collections\" srcset=\"https:\/\/distam.hypotheses.org\/files\/2025\/12\/orga_fichiers_ckp_nakala_v3.jpg 1189w, https:\/\/distam.hypotheses.org\/files\/2025\/12\/orga_fichiers_ckp_nakala_v3-300x214.jpg 300w, https:\/\/distam.hypotheses.org\/files\/2025\/12\/orga_fichiers_ckp_nakala_v3-500x356.jpg 500w, https:\/\/distam.hypotheses.org\/files\/2025\/12\/orga_fichiers_ckp_nakala_v3-768x547.jpg 768w\" sizes=\"auto, (max-width: 1189px) 100vw, 1189px\" \/><\/p>\n\n\n\n<p>On \u00e9tablit  ensuite <strong>un sch\u00e9ma de m\u00e9tadonn\u00e9es<\/strong>, c&#8217;est-\u00e0-dire qu&#8217;on documente les donn\u00e9es en leur associant un titre, une licence, etc. Ce sch\u00e9ma de m\u00e9tadonn\u00e9es peut prendre diverses formes :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Il peut s&#8217;agir d&#8217;un tableau qui pr\u00e9cise ce qu&#8217;on documente, quelle forme prend cette documentation et comment se nomme le champ ainsi document\u00e9. On peut aussi pr\u00e9ciser si ce champ est obligatoire. Un tableau de ce type servira de r\u00e9f\u00e9rence ou de documentation.<\/li>\n\n\n\n<li>On peut se servir de r\u00e8gles associ\u00e9es \u00e0 un fichier au format choisi (csv, yaml, json) pour \u00e9tablir le sch\u00e9ma et s&#8217;assurer que les m\u00e9tadonn\u00e9es saises dans un fichier sont conformes au format choisi.<\/li>\n\n\n\n<li>M\u00eame si on saisit les m\u00e9tadonn\u00e9es \u00e0 la vol\u00e9e sur une interface de d\u00e9p\u00f4t, il est n\u00e9cessaire d&#8217;avoir une liste des m\u00e9tadonn\u00e9es attendues pour \u00e9viter les incoh\u00e9rences. Sur la coh\u00e9rence et l&#8217;organisation du sch\u00e9ma de m\u00e9tadonn\u00e9es, on consultera avec int\u00e9r\u00eat <a href=\"https:\/\/distam.hypotheses.org\/6884\">l&#8217;intervention<\/a> de R\u00e9gis Witz \u00e0 l&#8217;\u00e9cole d&#8217;\u00e9t\u00e9 Distam 2023.<\/li>\n<\/ul>\n\n\n\n<p><strong>Les prochains billets<\/strong> traiteront tour \u00e0 tour :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>des champs obligatoires dans Nakala et des choix qui s&#8217;offrent au d\u00e9posant (2\/4)<\/li>\n\n\n\n<li>d&#8217;autres champs dont la documentation est recommand\u00e9e ou utile dans certains cas (3\/4) <\/li>\n\n\n\n<li>de quelques m\u00e9thodes et outils de d\u00e9p\u00f4t disponibles (4\/4).<\/li>\n<\/ul>\n\n\n\n<p>Si les m\u00e9tadonn\u00e9es, souvent associ\u00e9es aux catalogues des biblioth\u00e8ques, nous permettent de retrouver des publicatons en les filtrant par titre, auteur, \u00e9diteur, ann\u00e9e de publication, elle s&#8217;av\u00e8rent \u00e0 la fois plus labiles ou moins stables pour la documentation des donn\u00e9es de recherche. Cela s&#8217;explique par la diversit\u00e9 des donn\u00e9es de recherche, par leur contexte de production et de documentation (les projets de recherche), par la jeunesse des entreprises de production et de partage des donn\u00e9es en sciences humaines et sociales, ainsi que par le contexte de documentation des donn\u00e9es de la recherche (en dehors des institutions et des m\u00e9tiers de la documentation). Il en r\u00e9sulte que les sch\u00e9mas de m\u00e9tadonn\u00e9es dans les entrep\u00f4ts sont aussi divers que les <em>headers<\/em> des fichiers en XML-TEI. Si l&#8217;on se dirige aujourd&#8217;hui vers un certain nombre de recommandations par discipline qui devraient permettre de faciliter la recherche de donn\u00e9es dans les entrep\u00f4t (donc de renforcer le &#8220;F&#8221; et possiblement le &#8220;R&#8221; des donn\u00e9es FAIR), les entrep\u00f4ts se pr\u00e9sentent aujourd&#8217;hui avant tout comme des espaces de <strong>stockage un peu ordonn\u00e9<\/strong> des donn\u00e9es de la recherche plut\u00f4t que comme des catalogues des donn\u00e9es num\u00e9riques disponibles.<\/p>\n\n\n\n<p>La r\u00e9flexion partag\u00e9e dans cette s\u00e9rie a pris forme au cours des cinq derni\u00e8res ann\u00e9es. Elle r\u00e9sulte avant tout de la gestion des donn\u00e9es produites dans le cadre du projet <a href=\"https:\/\/chi-know-po.gitpages.huma-num.fr\/\">CHI-KNOW-PO<\/a>, notamment son versant <a href=\"https:\/\/www.collexpersee.eu\/projet\/chi-know-po-corpus\/\">Corpus<\/a>. Dans ce cadre, les \u00e9changes avec les sp\u00e9cialistes des biblioth\u00e8ques (BULAC, Coll\u00e8ge de France, BNU et Biblioth\u00e8ques de l&#8217;Universit\u00e9 de Strabsourg), les experts de l&#8217;IR* Huma-Num et les orf\u00e8vres des plateformes PHUN et Estrades (MISHA) ont \u00e9t\u00e9 particuli\u00e8rement pr\u00e9cieux et formateurs. Les choix qui ont \u00e9t\u00e9 faits ont \u00e9t\u00e9 motiv\u00e9s par le cadrage scientifique du projet et se sont appuy\u00e9s sur des travaux ant\u00e9rieurs comme <a href=\"https:\/\/shs.hal.science\/halshs-03037748v1\">les recommandations<\/a> du consortium Huma-Num Cahier. Cependant, la perspective a gagn\u00e9 en largeur de vue gr\u00e2ce \u00e0 l&#8217;accompagnement de projets associ\u00e9s au consortium Huma-Num Distam entre le printemps 2022 et l&#8217;automne 2025 et aux discussions auxquelles elles ont donn\u00e9 lieu au sein de l&#8217;\u00e9quipe du consortium Huma-Num Distam.<\/p>\n\n\n<ol class=\"wp-block-footnotes\"><li id=\"ad2facf0-f165-4178-8ec7-9c33d2183aa0\"><bdo lang=\"fr\" dir=\"ltr\">Pour le d\u00e9p\u00f4t des donn\u00e9es (texte, image, son, vid\u00e9o), il est recommand\u00e9 de recourir \u00e0 des entrep\u00f4ts dits de confiance qui permettront d&#8217;associer des m\u00e9tadonn\u00e9es \u00e0 ces donn\u00e9es et d&#8217;assurer l&#8217;accessibilit\u00e9 desdites donn\u00e9es sans d\u00e9pendre d&#8217;acteurs \u00e9conomiques. Pour le code, son d\u00e9veloppement dans les forges logicielles s&#8217;accompage normalement de son archivage dans Software Heritage. Les publications sont pour leur part d\u00e9pos\u00e9es dans HAL.<\/bdo> <a href=\"#ad2facf0-f165-4178-8ec7-9c33d2183aa0-link\" aria-label=\"Aller \u00e0 la note de bas de page 1\">\u21a9\ufe0e<\/a><\/li><li id=\"4048045f-2ead-4b14-a2cf-558118b95365\">Pour le formatage des titres de fichiers, cf. <a href=\"https:\/\/doranum.fr\/stockage-archivage\/comment-nommer-fichiers_10_13143_wgqw-aa59\/\">le guide d\u00e9di\u00e9<\/a> au plan de nommage de Doranum. Une r\u00e9flexion similaire intervient dans le choix des titres de d\u00e9p\u00f4ts et de collections. <a href=\"#4048045f-2ead-4b14-a2cf-558118b95365-link\" aria-label=\"Aller \u00e0 la note de bas de page 2\">\u21a9\ufe0e<\/a><\/li><\/ol>\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Cette s\u00e9rie de billets est consacr\u00e9e au d\u00e9p\u00f4t dans un entrep\u00f4t de confiance. Nous avons choisi Nakala, l&#8217;entrep\u00f4t des donn\u00e9es en sciences humaines et sociales propos\u00e9 par l&#8217;IR* Huma-Num, mais bien d&#8217;autres choix sont possibles. Pour choisir son entrep\u00f4t, on peut s&#8217;appuyer sur la note m\u00e9thodologique \u00e9tablie par le Coll\u00e8ge&#46;&#46;&#46;<\/p>\n","protected":false},"author":19904,"featured_media":23023,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_license":"CC-BY-4.0","footnotes":"[{\"id\":\"ad2facf0-f165-4178-8ec7-9c33d2183aa0\",\"content\":\"<bdo lang=\\\"fr\\\" dir=\\\"ltr\\\">Pour le d\\u00e9p\\u00f4t des donn\\u00e9es (texte, image, son, vid\\u00e9o), il est recommand\\u00e9 de recourir \\u00e0 des entrep\\u00f4ts dits de confiance qui permettront d'associer des m\\u00e9tadonn\\u00e9es \\u00e0 ces donn\\u00e9es et d'assurer l'accessibilit\\u00e9 desdites donn\\u00e9es sans d\\u00e9pendre d'acteurs \\u00e9conomiques. Pour le code, son d\\u00e9veloppement dans les forges logicielles s'accompage normalement de son archivage dans Software Heritage. Les publications sont pour leur part d\\u00e9pos\\u00e9es dans HAL.<\\\/bdo>\"},{\"id\":\"4048045f-2ead-4b14-a2cf-558118b95365\",\"content\":\"Pour le formatage des titres de fichiers, cf. <a href=\\\"https:\\\/\\\/doranum.fr\\\/stockage-archivage\\\/comment-nommer-fichiers_10_13143_wgqw-aa59\\\/\\\">le guide d\\u00e9di\\u00e9<\\\/a> au plan de nommage de Doranum. Une r\\u00e9flexion similaire intervient dans le choix des titres de d\\u00e9p\\u00f4ts et de collections.\"}]"},"categories":[1,520],"tags":[426,411,328,665,659],"ppma_author":[579],"class_list":["post-22930","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-flash-actu","category-guides","tag-entrepots-de-donnees","tag-fair","tag-guide","tag-metadonnees","tag-nakala"],"authors":[{"term_id":579,"user_id":19904,"is_guest":0,"slug":"bowushi","display_name":"Marie Bizais-Lillig","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/d0c3d3b14d8bae0119deb64e4cfb019337b8c148f9f53c60ec14226b9a7a93fc?s=96&d=blank&r=g","1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/posts\/22930","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/users\/19904"}],"replies":[{"embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/comments?post=22930"}],"version-history":[{"count":10,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/posts\/22930\/revisions"}],"predecessor-version":[{"id":23021,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/posts\/22930\/revisions\/23021"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/media\/23023"}],"wp:attachment":[{"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/media?parent=22930"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/categories?post=22930"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/tags?post=22930"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/distam.hypotheses.org\/wp-json\/wp\/v2\/ppma_author?post=22930"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}