Le ou la Data Scientist recruté·e interviendra dans le cadre du troisième volet du projet ANR FAIRwDDI : Upscaling metadata using AI.
L'objectif est de concevoir un protocole automatisé de curation de métadonnées reposant sur des techniques de traitement automatique du langage naturel (NLP) et d'apprentissage machine, en vue d'améliorer l'interopérabilité des données d'enquête en sciences humaines et sociales (SHS).
Ce travail s'inscrit également dans le développement de l'outil ReQuest, conçu pour explorer et comparer des questions d'enquêtes en SHS. Le protocole élaboré dans le cadre de FAIRwDDI y sera intégré pour enrichir les possibilités de navigation. Les missions s'articuleront également avec les travaux du projet ONTOLISST (https://www.sciencespo.fr/cdsp/fr/projets/projets-en-cours/ontolisst/), dans une démarche commune visant à favoriser l'harmonisation et l'interopérabilité des métadonnées en SHS.
Le ou la Data Scientist aura pour mission principale le développement et l’automatisation du protocole de curation des métadonnées des enquêtes du CDSP et des partenaires du projet selon le standard de valorisation de données Data Documentation Initiative (DDI). Ce protocole de curation sera ensuite intégré au processus de publication de métadonnées sur l'outil ReQuest.
Activités :
- Développer un protocole de curation automatisée de métadonnées XML DDI basé sur le NLP et/ou l’apprentissage machine ;
- Réaliser une analyse de l’état des métadonnées du CDSP et des partenaires (FSD, INSERM), identifier les écarts, et proposer des règles d’harmonisation ;
- Contribuer à la modélisation, méta-modélisation et appariement de schémas de métadonnées du CDSP et des partenaires ;
- Concevoir et implémenter des règles semi-automatiques de correspondance entre structures de données ;
- Produire des visualisations de l’information (ex. : graphe de connaissances) pour représenter les liens entre métadonnées ;
- Participer à l’intégration du protocole dans l’outil ReQuest, en collaboration avec les membres de l’équipe Projets numériques du CDSP ;
- Documenter les méthodes et procédures mises en place dans une logique de transparence et de réutilisabilité ;
- Présenter les résultats en français et en anglais dans des événements scientifiques, ateliers et réunions de projets.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.