Descriptif du poste
— Début : A partir de janvier 2026
— Durée : 6 mois
— Lieu : Centre de référence Maladies Rénales Rares, Brest
— Date limite : Si cette annonce est, le recrutement est ouvert
L’objectif principal du stage est d’identifier les patients porteurs de maladies ré- nales rares à partir des dossiers médicaux des patients du service de néphrologie à l’aide du Natural Language Processing (NLP).
Etat de l’art
Les comptes rendus cliniques sont riches en informations non structurées. Afin d’exploiter pleinement ces données, le NLP permet d’annoter automatiquement tout élément médical pertinent comme les symptômes, les pathologies et les an- técédents. Cette tâche, connue sous le nom de reconnaissance d’entités nommées (NER), repose aujourd’hui sur des modèles spécialisés, notamment ou en corpus français et. Par ailleurs, les grands modèles de lan- gage (LLM) open source comme LLaMA 3 ou Mixtral montrent des capacités pro- metteuses en NER. Leur polyvalence, liée à leur entraînement multi-tâches, facilite leur adaptation à des domaines variés comme le médical.
Les informations extraites des comptes rendus présentent une forte variabilité lexicale. Une étape de normalisation est essentielle pour permettre l’interprétation des phénotypes cliniques. L’entity linking répond à cet enjeu en associant les en- tités extraites à des concepts standardisés issus d’ontologies médicales telles que UMLS, HPO ou Orphanet. Les approches d’entity linking s’étendent des méthodes associant les représentations vectorielles des entités extraites à celles des bases de connaissance (,, ), à des modèles génératifs de ter- minologies standardisées ().
Tâches
1. Réalisation d’une veille sur les méthodes de NLP adaptées à l’extraction d’en- tités médicales et leur association aux bases de connaissances, en se concen- trant sur les approches adaptées au français médical.
2. Participation à l’intégration du dossier patient de néphrologie au lac de don- nées du Centre de Données Cliniques de Brest.
3. Pré-traitement des différentes sources de données.
4. Implémentation de plusieurs méthodes d’extraction d’entités et évaluation de leurs performances sur des patients atteints de maladies rares dont le phéno- type est connu.
5. Expérimentation de plusieurs méthodes d’entity linking pour lier les entités aux concepts UMLS/HPO et évaluation de leur pertinence.
6. Proposition de pathologies probables à partir des descriptions phénotypiques. La performance de la méthode proposée sera évaluée par comparaison aux diagnostics de maladies rénales rares déjà posés.
Le stage se déroulera au Centre de référence des Maladies Rénales Rares à Brest. stagiaire bénéficiera de l’expertise du centre de référence, du service de néphro- logie, de l’unité de recherche clinique et du centre de données cliniques du CHU de Brest.
Profil recherché
— Connaissances approfondies de Python, SQL et des librairies de traitement de données et d’apprentissage automatique comme Polars, Pandas, Scikit-learn, Tensorflow ou PyTorch.
— Capacité à lire des articles scientifiques en anglais.
— Bonnes pratiques de programmation et documentation pour un travail repro- ductible et collaboratif.
— Esprit d’initiative, rigueur scientifique et capacité à travailler en autonomie.
Candidature à l’adresse
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.