Contexte et atouts du poste
Contexte
Les données de santé, généralement issues du soins, constituent un potentiel important pour la recherche et l’organisation du système de santé. Compte tenu du caractère sensible des données médicales, dont la divulgation non maîtrisée entraîne des risques d’atteinte à la réputation et de préjudices pour les personnes concernées, la mise en place de mesures de protections adéquates est un préalable à leur exploitation. Un cadre normatif strict s’applique d’ailleurs aux traitements réalisés sur ces données (règlement général sur la protection des données, loi informatique et liberté, méthodologies de référence, règles internes des organisations, etc.). Outre leur coût et leur complexité de mise en œuvre, ces mesures de protection limitent le potentiel d’exploitation des données et donc les conséquences positives attendues pour la santé des populations.
Les méthodes visant à garantir la protection des données sensibles sont nombreuses comme l’anonymisation ou la dé-identification des informations, l’agrégation de données, l’apprentissage fédéré, ou la génération de données synthétiques. Dans leurs versions actuelles, ces méthodes ne permettent pas de répondre aux besoins pratiques d’un Entrepôt de Données de Santé (EDS) :
1. Le choix de la méthode appropriée au cadre légal dans un contexte spécifique dépend de chaque situation et mélange des arguments de nature juridique, scientifique, organisationnel et technique ;
2. Mise en œuvre complexe dans un environnement évoluant très rapidement (ex : structure des données souvent complexe, volumétrie importante, évolution rapide des méthodes et modèles de traitement des données, développement de méthodes de ré-identification par exemple sur les modèles entraînés sur des données personnelles, etc.) ;
3. Faible niveau de connaissance sur les risques d’atteinte à la vie privée et les possibilités des méthodes de protection au sein des organisations ;
4. Les craintes de risques résiduels d’atteinte à la vie privée conduisent souvent les organisation à une limitation préventives des traitements, parfois au-delà du cadre légal.
Au sein de la direction des services numériques de l’AP-HP, le pôle innovation et données assure, parmi d’autres missions, le développement et l’exploitation d’un entrepôt de données de santé (EDS) regroupant les données de soin des hôpitaux de l’AP-HP. Cet entrepôt, l’un des plus importants d’Europe, contient des informations sur des millions de patients (dossiers médicaux, comptes rendus, résultats d’analyse, imagerie, etc.) et offre des perspectives importantes en matière de recherche clinique, d’appui au pilotage et plus largement d’innovation dans le domaine de la santé. Comme les autres entrepôts de données de santé, il est soumis à des impératifs d’exploitation et de transmission des données pour réaliser des missions primaires ainsi qu’à des contraintes réglementaires et éthiques fortes.
Une grande partie de ces données issues d’un EDS sont des documents textuels non structurés sous forme de rapports médicaux. Avec l'essor de l'apprentissage automatique (ML) et l'avènement du traitement automatique du langage naturel (NLP), les grands modèles de langage (LLMs) sont de plus en plus utilisés pour automatiser le traitement de ces rapports médicaux.
Les dossiers médicaux des patients sont des données extrêmement sensibles et privées. Leur utilisation et leur diffusion sont donc soumises à de nombreuses réglementations, telles que la loi HIPAA aux États-Unis ou le RGPD en Europe. Dans cette réglementation, l'une des principales conditions préalables à la diffusion des données médicales est la suppression de tout élément permettant l'identification directe (c'est-à-dire la dé-identification ou la pseudonymisation) ou indirecte (c'est-à-dire l'anonymisation) d'un patient.
Les avancées récentes en NLP basées sur les réseaux de neurones ont démocratisé leur utilisation. Depuis l'avènement de ChatGPT, les LLMS ne se limitent pas à la génération de texte et peuvent inclure plusieurs tâches, notamment la classification et la reconnaissance d'entités nommées (NER), permettant ainsi la dé-identification de textes libres. Par exemple, Johnson et al. ont proposé d'utiliser un réseau de neurones basé sur une architecture BERT pour détecter un certain nombre d'éléments d'identification dans les documents médicaux. Plus récemment, différents hôpitaux ont également exploré la possibilité d'utiliser des LLMs pour pseudonymiser automatiquement des textes (c'est-à-dire masquer des informations directement identifiantes) issus de leur EDS. Dans ces approches, le modèle BERT est affiné avec les rapports médicaux de l'hôpital (afin d’être spécialisé et de bien comprendre ce type d’information) avant d'entraîner une reconnaissance d'entités nommées (NER) sur un ensemble des informations qui identifient directement les patients. Boutet et al. vont plus loin en proposant une approche permettant de spécialiser un LLM sur des patient médicaux en limitant la mémorisation par le modèle des informations à la fois directement et indirectement identifiantes (c’est à dire ce qui correspond l’anonymisation) afin de faciliter le partage des modèles entre hôpitaux.
Références :
5. Deidentification of free-text medical records using pre-trained bidirectional transformers. Johnson AEW, Bulgarelli L, Pollard TJ. Proc ACM Conf Health Inference Learn. Revealing the True Cost of Locally Differentially Private Protocols: An Auditing Perspective. Héber H. Arcolezi, Sébastien Gambs. Towards the Anonymization of the Language Modeling. Antoine Boutet, Lucas Magnana, Juliette Sénéchal, et Helain Zimmermann. AI Privacy Risks & Mitigations Large Language Models (LLMs). Isabel Barbera. EDPB. 2025.
Mission confiée
Objectif
Les travaux envisagés dans cette thèse permettront de répondre aux problématiques actuelles d’un EDS tel que celui de l’AP-HP. Plus spécifiquement, les travaux se focaliseront sur :
L’anonymisation de modèles d’apprentissage entraîné sur des données personnelles, notamment dans le champ du traitement automatique des langues, afin de faciliter leur partage ; Le développement d’une méthode générale pour évaluer les risques associés au partage de modèle ; La mise en application et l’intégration des méthodes proposées à l’EDS ainsi que l’amélioration des performances des méthodes existantes, notamment le passage à l’échelle.
Principales activités
Encadrement :
Le doctorant ou la doctorante sera encadré sur le plan scientifique par Antoine Boutet (Insa-Lyon / Inria). Il ou elle sera sera intégré au pôle innovation et données de la direction des services numériques de l’AP-HP sous la responsabilité de Clément Henin (AP-HP), JACOB Yannick (AP-HP).
Compétences
Effectuer une thèse est une chance, il faut cependant s'assurer d'avoir le bon profil pour cette expérience. Sans parler des compétences techniques nécessaires, voici une liste (non exhaustive) de compétences utiles pour l'aventure :
6. autonome et intéressé
7. curieux, créatif
8. savoir communiquer
9. rigoureux
Avantages
10. Restauration subventionnée
11. Transports publics remboursés partiellement
12. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
13. Possibilité de télétravail 90 jours/an fixes ou flottants et aménagement du temps de travail
14. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
15. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
16. Accès à la formation professionnelle
17. Participation Protection Sociale Complémentaire sous conditions
Rémunération
2 200 euros brut /mois
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.