Mission :
L'ANR EXO-POPP (Extraction Optique des entités nommées manuscrites pour les actes de mariage de la population de Paris (1880-1940) a été lancée en 2021 dans le but de créer une vaste base de données à partir de 300 000 actes de mariages de Paris et sa banlieue entre 1880 et 1940 grâce aux derniers progrès en reconnaissance d'écritures manuscrites et en traitement automatique du langage naturel.
Une première version de la base M-POPP (en SQL) sera terminée par les informaticiens du LITIS au mois de septembre 2025. Si la reconnaissance automatique est très bonne, il reste cependant 5 à 10 % d'erreur de reconnaissance d'écriture qu'il faudra tenter de réduire au maximum. Il s'agira ensuite d'adapter la base de données (SQL) à l'analyse statistique. Enfin, les adresses devront être liées à un SIG.
L'objectif final est de produire une base de données exploitable par les chercheur·e·s pour l'étude et l'analyse, à l'aide d'outils de traitement de données.
L'ingénieur·e d'études en production, traitement, analyse de données et enquêtes assurera la correction et l'adaptation de la base SQL M-POPP (créée à partir d'actes de mariage de Paris et de sa banlieue pour la période 1880-1940 grâce à l'océrisation de documents et au Deep Learning) à l'analyse statistique.
Il/elle mettra en place le SIG de la base M-POPP.
Il/elle participera à la pérennisation de la base, en la préparant pour qu'elle soit partagée et ouverte.
Activités :
- Participer à la structuration et la curation de la base M-POPP : mise en ordre de la base après l'océrisation, en corrigeant les valeurs de variables non reconnues ou mal interprétées au cours du processus d'océrisation.
- Mettre en place le SIG de la base à l'aide du logiciel Géocodeur, pour chaque adresse présente dans la base ; ainsi que, le cas échéant, correction des données SIG obtenues avec le Géocodeur en collaboration avec les ingénieur·e·s du logiciel, afin d'obtenir des résultats fiables et précis.
- Préparation technique de la base de données en vue de sa publication, de son stockage, de sa diffusion et de sa mise en œuvre sur des plateformes de distribution de données, telles que Quetelet-Progedo.
- Assurer le dialogue entre les chercheurs en informatique de l'Observatoire (équipe du LITIS, Université de Rouen) et les chercheur·ses en sciences sociales (porté par le LARHRA, Université de Lyon).
- Suivre l'état de l'art en matière de publication et de valorisation des données historiques.
- Participer à la réflexion sur les méthodes de représentation et d'analyse des données numériques
- Participer aux réunions du projet EXO-POPP
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.