Sous-famille : Recherche et Enseignement
Date souhaitée de prise de poste : 01/03/2025
L’Institut national de l’information géographique et forestière (IGN) est un établissement public à caractère administratif placé sous la tutelle des ministères chargés de l’écologie et de la forêt. Sa vocation est de produire et diffuser des données (open data) et des représentations (cartes en ligne et papier, géovisualisation) de référence relatives à la connaissance du territoire national et des forêts françaises ainsi qu'à leur évolution.
Grâce à son école d’ingénieurs, l'ENSG-Géomatique, et à ses équipes de recherche pluridisciplinaires, l’institut cultive un potentiel d’innovation de haut niveau dans plusieurs domaines (géodésie, forêt, photogrammétrie, intelligence artificielle, analyse spatiale, visualisation 3D, etc.).
Dans un contexte où la transformation humaine des écosystèmes devient un enjeu de savoir majeur, mesurer et analyser les dynamiques passées qui modèlent le territoire aide à mieux saisir celles à l’œuvre aujourd’hui. Pour saisir les dynamiques de peuplement, environnementales ou industrielles, les sciences sociales exploitent de plus en plus largement les fonds cartographiques anciens numérisés en masse par les institutions patrimoniales (ex. BnF) et cartographiques (ex. IGN). On s’intéressera ici tout particulièrement aux lieux nommés figurés dans les cartes à partir du XVIIe siècle par un pictogramme et accompagnés d’une étiquette : villes, moulins, villages, ports, forts, etc. Présents en très grands nombres, ce sont des témoins précieux de l’organisation démographique, (proto)industrielle, infrastructurelle, politique, religieuse ou encore militaire d’une région.
Pour ce stage, nous faisons l’hypothèse qu’un modèle de détection – pour les pictogrammes – et un modèle OCR – pour les étiquettes – peuvent bénéficier d’un couplage. La localisation des étiquettes et des pictogrammes est corrélée, le nom d’un lieu étant écrit à proximité de son pictogramme sur la carte. Le contenu du texte et la classe du pictogramme peuvent aussi être liés, par exemple une abbaye sera symbolisée par un pictogramme dédié et son label contiendra souvent une référence à sa fonction, comme «A.B.», «Abb.» ou «Abbayede ...». Coupler ces deux modèles constituera un premier objectif du stage. Dans un second temps, on s’intéressera au liage des différentes extractions, afin de mettre en relation les pictogrammes détectés avec le label leur correspondant.
* Évaluer les performances de modèles OCR « sur étagère » sur un jeu de cartes anciennes.
* Proposer une approche de couplage de YOLO et du modèle OCR sélectionné pour détecter et extraire les lieux nommés dans la carte de Cassini & évaluer les performances de l’approche.
* Proposer une méthode d’appariement des étiquettes et pictogrammes extraits & évaluer ses performances.
* Explorer la montée en généricité des approches proposées sur d’autres corpus numériques issus des collections Gallica de la BnF.
* Développer un modèle OCR spécialisé pour les cartes anciennes : poids, code d’entraînements, rapport d’évaluation.
* Créer une architecture de couplage des modèles OCR et de détection : code, rapport d’évaluation.
* Implémenter une méthode de liage des labels & pictogrammes extraits : code, documentation.
* Constituer un jeu de données géohistoriques de grande taille des lieux nommés extraits, sur la carte de Cassini et d’autres corpus de cartes issues de Gallica.
Profil recherché
Étudiant ou étudiante, M2 ou ingénieur en 3ème année.
Conditions particulières
Le stage s’insérera dans une dynamique de recherche interdisciplinaire déjà en place entre le LASTIG de l’IGN et le Centre de Recherches Historique de l’EHESS et bénéficiera d’un cadre de travail résultant d’une collaboration de longue durée entre les deux équipes de recherche.
Ce travail s’inscrit dans une démarche de science ouverte, l’intégralité des codes et modèles seront déposés en open source/data sur des plateformes ouvertes.
Atouts de l’environnement de travail
Sur le campus de l'Université Gustave Eiffel, accès facile par le RER A. Accès aux bibliothèques, au restaurant universitaire et au restaurant de l'entreprise.
Pour tout renseignement complémentaire :
Aucune candidature envoyée à ces adresses mails ne sera traitée. Merci de postuler à cette offre en cliquant sur « Je postule ».
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.