Contexte et atouts du poste
Dans le cadre du projet Partages, coordonné par le Health Data Hub et financé par BPI France, l’ objectif est de développer un modèle open source pour les données médicales françaises.
L'intelligence artificielle générative et les grands modèles de langage ont récemment ouvert des perspectives sur l'utilisation de l'IA dans divers domaines. Pour concrétiser ce potentiel, le projet national collaboratif
"PARTAGES" répond à un besoin crucial : le développement d'un modèle de langage open-source en français, spécialisé dans les données de santé. Un tel outil accélérera considérablement et démocratisera l'utilisation de l'IA pour la santé, apportant des bénéfices massifs à l'organisation du système de santé, aux conditions de travail des soignants et, en fin de compte, à la santé publique. Une préoccupation principale lors de l'analyse des données textuelles de santé est la confidentialité des patients, et c'est pourquoi il est stratégique de développer des modèles open source pouvant être utilisés dans les hôpitaux et autres acteurs de santé. Pour cela "Partages" se déroulera en deux étapes : (i) générer des comptes rendus médicaux synthétiques en combinaison avec la littérature scientifique biomédicale pour affiner un modèle open-source, (ii) raffiner le modèle sur des comptes rendus médicaux réels, au sein de chacun des 18 établissements de soins partenaires. L'équipe Soda est impliquée dans la réalisation de tâches de la première partie : travail sur des données uniquement publiques, et mise à disposition du modèle en open-source.
Mission confiée
En nous appuyant sur l'expertise de l'équipe Soda en matière d'IA robuste et frugale, nous participons à la création d'un modèle de base qui est robuste face à un nouveau vocabulaire (que ce soit de nouveaux concepts médicaux apparaissant à l'avenir, ou des fautes d'orthographe ou des abréviations utilisées dans les textes médicaux), et frugal. Le postdoc recruté, Joel Mba Kouhoue travaillera sur la distillation de modèles, afin d'obtenir un modèle (dit ``étudiant'') plus économe en ressources de calcul que le modèle originel (dit ``enseignant''). Plusieurs architectures et catégories de modèles seront envisagées pour le modèle étudiant : modèles "encoder-only" de type BERT, en particulier pour les tâches de détection d'entités et d'annotations de documents, avec une comparaison avec des modèles génératifs sur ces tâches, et modèles "encoder-decoder" pour des tâches nécessitant un modèle génératif, comme le résumé, la génération d'exercices pour la formation des personnels soignants. L'ensemble des résultats de ces expériences sera publié et partagé en open-source.
Le travail consistera d'une part à distiller des gros modèles ``enseignants'' existants en utilisant pour la distillation des corpus proches de ceux applicatifs (et donc avec un vocabulaire médical), d'autre part à affiner et valider ces modèles sur des tâches proxis, telles que de l'extraction d'entitées nomées. L'étude fera varier le choix du modèle enseignant (en faisant attention au choix de licence compatible avec nos objectifs d'open source), cherchera le meilleur corpus (y compris en utilisant de l'augmentation de données) et mesurera les compromis taille de modèle / performance sur les tâches proxis.
Principales activités
Le candidat travaillera à l'élaboration et l'évaluation de modèles frugaux et robustes.
Compétences
Compétences techniques et niveau requis :
Langues :
Compétences relationnelles :
Compétences additionnelles appréciées :
Avantages
1. Restauration subventionnée
2. Transports publics remboursés partiellement
3. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
4. Possibilité de télétravail et aménagement du temps de travail
5. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
6. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
7. Accès à la formation professionnelle
8. Sécurité sociale
Rémunération
Salaire brut mensuel : 2 788 euros brut/mois
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.