Description de la mission
Le ou la Data Scientist recruté·e interviendra dans le cadre du troisième volet du projet ANR FAIRwDDI : Upscaling metadata using AI.
L'objectif est de concevoir un protocole automatisé de curation de métadonnées reposant sur des techniques de traitement automatique du langage naturel (NLP) et d'apprentissage machine, en vue d'améliorer l'interopérabilité des données d'enquête en sciences humaines et sociales (SHS).
Ce travail s'inscrit également dans le développement de l'outil ReQuest, conçu pour explorer et comparer des questions d'enquêtes en SHS. Le protocole élaboré dans le cadre de FAIRwDDI y sera intégré pour enrichir les possibilités de navigation. Les missions s'articuleront également avec les travaux du projet ONTOLISST ( dans une démarche commune visant à favoriser l'harmonisation et l'interopérabilité des métadonnées en SHS.
Le ou la Data Scientist aura pour mission principale le développement et lautomatisation du protocole de curation des métadonnées des enquêtes du CDSP et des partenaires du projet selon le standard de valorisation de données Data Documentation Initiative (DDI). Ce protocole de curation sera ensuite intégré au processus de publication de métadonnées sur l'outil ReQuest.
Activités :
- Développer un protocole de curation automatisée de métadonnées XML DDI basé sur le NLP et/ou lapprentissage machine ;
- Réaliser une analyse de létat des métadonnées du CDSP et des partenaires (FSD, INSERM), identifier les écarts, et proposer des règles dharmonisation ;
- Contribuer à la modélisation, méta-modélisation et appariement de schémas de métadonnées du CDSP et des partenaires ;
- Concevoir et implémenter des règles semi-automatiques de correspondance entre structures de données ;
- Produire des visualisations de linformation (ex. : graphe de connaissances) pour représenter les liens entre métadonnées ;
- Participer à lintégration du protocole dans loutil ReQuest, en collaboration avec les membres de léquipe Projets numériques du CDSP ;
- Documenter les méthodes et procédures mises en place dans une logique de transparence et de réutilisabilité ;
- Présenter les résultats en français et en anglais dans des événements scientifiques, ateliers et réunions de projets.
Profil
Compétences :
- Expérience en traitement automatique du langage naturel (NLP), la maîtrise des modèles de référence comme BERT et ses dérivés serait un atout ;
Maîtrise des outils de gestion de versions (Git, GitLab) pour le travail collaboratif ;
- Maîtrise des outils de traitement et de visualisation de données avec Python (Pandas, spaCy, scikit-learn, networkx) ;
- Connaissances en modélisation de données, interopérabilité ou appariement de schémas ;
- Sensibilité aux standards et formats de métadonnées (ex. : DDI, RDF, XML) ;
- Capacité de communication écrite et orale en français (C1) et en anglais (B2).
Savoirs comportementaux :
- Autonomie, rigueur et esprit déquipe dans un environnement collaboratif.
Formation :
- Bac (Master, école dingénieur ou équivalent) en science des données, humanités numériques, informatique, ou disciplines connexes.
- Débutants acceptés.
Un intérêt pour les sciences sociales ou les données denquête est un atout.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.