Ce dépôt regroupe des notebooks et scripts utilisés pour l’extraction, le nettoyage, et le géoréférencement de métadonnées et de cartes postales du Vaucluse dans le cadre du Hackathon 2026 de l'École nationale des chartes (ENC).
dans scripts_notebooks/
scraping_urls.ipynb: collecte d’URLs à aller scraper, un par carte postale.scraping_metadata.ipynb: scraping des métadonnées à partir de la liste d'URLs.identification_lieu-dit.ipynb: préparation/filtrage de base de données (JSON/CSV) à implémenter dans la pipeline avec QWEN. Nettoyage réussi mais infructueux.georeferencement_osmnx.ipynb: géocodage avec OSMNX (moins performant que nomitim).georeferencement_5m_mathias_garnier.py: script de géoréférencement réalisé par https://github.com/MathiasGarnier.script_cartes_postales.py: pipeline de traitement OCR/transcription avec QWEN3 VL, identification communes, lieux-dits, monuments avec recherche web. Script dérivé du Google colab :etapes1-2_QWEN3.ipynb.corpus_benchmark.ipynb: à partir des 84 cartes traitées avec QWEN3 VL, on a défini une vérité de terrain manuellement pour benchmarker notre baseline.Géoréférencement_nominatim_carto.ipynb: notebook prévu pour Google Colab pour géolocaliser les monuments, lieux-dits puis créer la carte en html.
Les fichiers de données se trouvent dans data/ (JSON, CSV, images, sorties intermédiaires).
- dans
métadonnées:metadata_output_merged.json: résultat du scraping des métadonnées sur le site des archives du Vaucluse et output de la pipeline avec QWEN3 VL.vaucluse_georef_nominatim4.csv: le même fichier auquel s'ajoute les coordonnées des monuments, lieux-dits si trouvés par nominatim (avec condition de distance pour qu'il n'y ait pas de données aberrantes). - dans
précision_geoguessrles résultats obtenus par https://github.com/MathiasGarnier avec son scriptgeoreferencement_5m_mathias_garnier.py. carte_vaucluse_interactive5.html: la carte interactive avec popup et métadonnées des cartes postales (images comprises!), placées en fonction du meilleur degré de précision.- dans
benchmark_84cartesles json obtenus et une note .txt importante sur nos résultats au global.
Les dépendances sont listées dans requirements.txt et requirements-min.txt pour tous les notebooks à l'exception Géoréférencement_nomitim_carto.ipynb et etapes1-2_QWEN3.ipynb qui sont des google colab. Le fichier georeferencement_5m_mathias_garnier.py a été réalisé par Mathias Garnier et les dépendances ne sont pas dans requirements.txt ni requirements-min.txt. Quant à script_cartes_postales.py, les dépendances sont en commentaire au début du script.
- Certains notebooks ont été exécutés dans des environnements différents (local vs Colab).
- Les chemins et sources de données peuvent nécessiter une adaptation locale.
Garnier Mathias : étudiant en M1 Humanités Numériques à l'ENC. Létoffé Maxime : étudiant en M1 Humanités Numériques à l'ENC. Rivière Mathieu : étudiant en M1 Humanités Numériques à l'ENC. Vidal-Gorène Chahan : respondable du master Humanités Numériques à l'ENC.
- Le dépôt est diffusé sous licence
Apache-2.0(fichierLICENSEà la racine du dépôt GitHub). - Les réutilisations sont autorisées, y compris: usage privé/public, modification, redistribution et usage commercial.
- Toute redistribution doit conserver les mentions de licence et de copyright prévues par Apache-2.0.
- Un fichier
NOTICEest fourni à la racine pour rappeler l'attribution du projet et l'absence d'endossement des versions dérivées. - Si vous réutilisez ce travail dans un contexte académique/public, merci de citer le dépôt
| École nationale des chartes - PSL | Département du Vaucluse |
|---|---|
![]() |
![]() |

