Description :
A PROPOS DE LA STRUCTURE : Le CépiDc a pour mission de produire la base de données statistique sur les causes médicales de décès en France, de la diffuser et de réaliser des analyses sur cette base
de données, qui est utilisée pour la veille sanitaire et pour des études épidémiologiques et statistiques.
MISSION PRINCIPALE :Vous participez à la mise en oeuvre en production courante des outils d’intelligence artificielle pour le codage des causes de décès. Ces outils fondés sur de l’apprentissage profond et du traitement automatique des langues améliorent la qualité et la rapidité de codage automatique, de façon à satisfaire les délais réglementaires de diffusion de la base. Vous êtes responsable de leur adaptation pour tenir compte du prochain changement de nomenclature (passage de la CIM 10 à la CIM 11) et vous êtes partie prenante de l’évolution du système d’information du CépiDc qui en découle. Vous bénéficiez d’un accès à des ressources de calcul (GPU) permettant de concevoir, entraîner et tester des modèles et de réaliser des prédictions.
Au sein du pôle production des données du CépiDc, vous travaillez dans l’équipe automatisation, sous la responsabilité de la cheffe d’équipe, et en étroite collaboration avec le data scientist senior. Vous collaborez également avec le reste de l’équipe pluridisciplinaire (codeurs, nosologistes, responsables de production, statisticiens) et vous êtes partie prenante de l’écosystème formé avec les partenaires de recherche et développement (médecins spécialisés en informatique médicale et datascientists, de l’AP-HP, LISN-CNRS, Insee, Santé publique France, Inserm).
ACTIVITÉS PRINCIPALES :
* Mettre en production, maintenir, monitorer et valider une chaîne de traitements de données textuelles comprenant des prédicteurs de type réseaux de neurones (transformers) pour aider/automatiser le codage du texte libre des certificats de décès dans la CIM (annotation, training/fine-tuning, monitoring).
* Mettre en production le ciblage des certificats à allouer aux différentes modalités de codage (IA, manuel), évaluer l’amélioration continue du codage automatique (en taux de codage et en qualité) en vue d’une boucle d’apprentissage continue (on line) à partir de la validation/correction des codeurs des propositions de l’algorithme.
* Adapter l’architecture du modèle et le _feature engineering_ en vue d’améliorer la classification des causes, en adéquation avec la finalité statistique du traitement et les bonnes pratiques.
* Participer à l’internationalisation de ces méthodes en lien avec les instances représentatives françaises à l’OMS et au sein de l’Europe.
* Assurer une veille scientifique sur les modèles et les algorithmes à l’état de l’art dans le domaine.
* Participer activement à des groupes d’échanges de bonnes pratiques existants ou à construire regroupant datascientists, statisticiens et chercheurs en épidémiologie et informatique (Insee, DREES, Inserm, Inria,...) autour de l’usage de l’IA/TAL sur ces thématiques.
Profil recherché :
CONNAISSANCES :
* Apprentissage automatique, traitement automatique des langues, _deep learning_, sciences des données ;
* Maîtrise de l’ensemble des étapes allant du développement à la mise en production ;
* Maîtrise des environnements de production ;
* De bonnes bases statistiques ;
* Des connaissances en biostatistique et un intérêt pour l’épidémiologie sont des plus.
SAVOIR-FAIRE :
* Très bonne maîtrise de Python et des librairies de _deep learning_ (Tensorflow, Pytorch) en particulier celles appliquées au traitement automatique des langues ;
* Entraînement et monitoring d’algorithmes de_ deep learning_
* Mise en production d’algorithmes de _machine learning_, MLops
* Git, outil de versioning
* Design et maintien de pipeline de _machine learning_, ces expériences sont des plus, de même que l’utilisation de Docker, MLFlow, et de technologies cloud.
APTITUDES :
* Proactivité, force de proposition ;
* Aisance relationnelle, sens de la communication et de la pédagogie ;
* Capacités d’organisation, de planification et de rigueur ;
* Discrétion et confidentialité ;
* Savoir s’insérer et interagir avec des équipes multidisciplinaires : pôle de production, experts métiers chargés de production, statisticiens, stagiaires, chercheurs, etc. ;
* Savoir se maintenir à l’état de l’art des connaissances.
NIVEAU DE DIPLÔME ET FORMATION :Titre ou diplôme classé au moins au de Niveau 7 ou qualification professionnelle jugée équivalente. Diplôme d’ingénieur de grandes écoles, Master en data science ou équivalence professionnelle
SPÉCIFICITÉS ET ENVIRONNEMENT DU POSTE : confidentialité des données et contraintes de production.
EXPÉRIENCE SOUHAITÉE : ce poste convient à un sortant d’école motivé, formé à l’usage de Python et des librairies d’apprentissage profond.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.