Topic description
Cette thèse propose un middleware neuro-symbolique qui empêche l'interprétation directe par des LLM de dossiers médicaux électroniques (DME) bruts ou de données médicales. Dans cette conception, les agents LLM interagissent exclusivement via une API sémantique clinique adossée à un graphe de connaissances médical formel et régie par des contrats sémantiques.
Un principe de conception critique est que cette architecture est indépendante des tâches. La même couche ontologique et le même catalogue de contrats gouvernent la récupération des données, la génération de comptes rendus de sortie, le codage clinique automatisé (CIM-10/CCAM), la vérification des interactions médicamenteuses et l'audit de conformité des parcours de soins. Les contrats définissent ce que l'agent est autorisé à savoir et à faire — et non le type de tâche qu'il exécute. En déplaçant le raisonnement clinique vers un graphe de connaissances déterministe, l'architecture comble également l'écart de capacités des modèles plus petits, souverains et déployés sur site [5, 11].
La thèse explorera deux axes de recherche interdépendants. Leur périmètre précis, leur priorisation et leur méthodologie seront affinés lors de la phase initiale de revue de littérature, en collaboration avec le doctorant. Les axes ci-dessous constituent une feuille de route, et non une prescription rigide.
Construction du graphe de connaissances cliniques. Comment construire automatiquement et enrichir en continu un graphe de connaissances médical à partir de données cliniques françaises hétérogènes — codes structurés (CIM-10, CCAM, ATC), DME semi-structurés et notes médicales non structurées ? La recherche examinera comment les LLM peuvent soutenir l'extraction automatique d'informations et comment les connaissances obtenues peuvent être structurées en représentations standardisées et interopérables compatibles avec les modèles de données de santé établis (FHIR, OMOP, SNOMED-CT, LOINC) [6, 7, 10]. Garantir la qualité, la cohérence et la validité clinique du graphe de connaissances construit constitue une question centrale encore ouverte.
Agents LLM contraints via des contrats sémantiques. Comment concevoir et évaluer des agents LLM dont les limites opérationnelles sont strictement régies par des contrats formels ? La thèse explorera des formalismes tels que les contrats d'agents [8] — des tuples unifiant spécifications d'entrée/sortie, contraintes de schéma, règles cliniques, exigences de traçabilité et contraintes réglementaires (RGPD) — et les évaluera sur plusieurs types de tâches cliniques (recherche d'information, génération de rapports, codage clinique, vérification des interactions médicamenteuses) afin d'évaluer l'universalité de l'approche pilotée par les contrats. Les principales dimensions d'évaluation incluent la réduction du taux d'hallucinations, la précision clinique, la traçabilité du raisonnement et la latence des réponses par rapport à des bases de référence non contraintes.
Stratégie de validation :
L'évaluation ira au-delà des métriques NLP standard (BLEU, ROUGE) pour se concentrer sur la fiabilité et la sécurité cliniques. Le doctorant définira des protocoles d'évaluation cliniquement pertinents, incluant des évaluations de la cohérence clinique par rapport aux recommandations établies, les taux de violation des contrats, l'exhaustivité de la traçabilité et des comparaisons avec des LLM non contraints dans des scénarios cliniques réalistes. Une évaluation avec intervention humaine (human-in-the-loop) mesurera l'utilité du système comme outil d'aide à la décision augmentée. Le système final devra préserver l'autorité décisionnelle complète du clinicien ; l'IA fournissant une couche analytique traçable plutôt que des prescriptions autonomes.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
This thesis proposes a neuro-symbolic middleware that prevents direct LLM interpretation of raw EHR or medical data. In this design, LLM agents interact exclusively through a Clinical Semantic API backed by a formal Medical Knowledge Graph and governed by Semantic Contracts.
A critical design principle is that this architecture is task-agnostic. The same ontology layer and contract catalogue governs data retrieval, discharge report generation, automated clinical coding (CIM-10/CCAM), drug interaction checking, and care pathway compliance auditing. The contracts define what the agent is allowed to know and do—not what kind of task it performs. By shifting clinical reasoning into a deterministic knowledge graph, the architecture also addresses the capability gap of smaller, sovereign, on-premise models [5, 11].
The thesis will explore two interrelated research directions. Their precise scope, prioritization, and methodology will be refined during the initial literature review phase, in collaboration with the candidate. The directions below represent a roadmap, not a rigid prescription.
Clinical Knowledge Graph construction. How to automatically build and continuously enrich a medical Knowledge Graph from heterogeneous French clinical data—structured codes (CIM-10, CCAM, ATC), semi-structured EHRs, and unstructured physician notes? The research will investigate how LLMs can support automated information extraction and how the resulting knowledge can be structured into standardized, interoperable representations compatible with established healthcare data models (FHIR, OMOP, SNOMED-CT, LOINC) [6, 7, 10]. Ensuring quality, consistency, and clinical validity of the constructed KG is a central open question.
Constrained LLM agents via Semantic Contracts. How to design and evaluate LLM agents whose operational boundaries are strictly governed by formal contracts? The thesis will explore formalisms such as Agent Contracts [8]—tuples that unify input/output specifications, schema constraints, clinical rules, traceability requirements, and regulatory constraints (RGPD)—and evaluate them across multiple clinical task types (retrieval, report generation, clinical coding, drug interaction checking) to assess the universality of the contract-driven approach. Key evaluation dimensions include hallucination rate reduction, clinical accuracy, traceability of reasoning, and response latency compared to unconstrained baselines.
Validation Strategy:
Evaluation will go beyond standard NLP metrics (BLEU, ROUGE) to focus on clinical reliability and safety. The candidate will define clinically meaningful evaluation protocols, including assessments of clinical consistency against established guidelines, rates of contract violations, completeness of traceability, and comparisons with unconstrained LLM baselines in realistic clinical scenarios. A human-in-the-loop evaluation will assess the system's utility as an augmentative decision-support tool. The final system should preserve the clinician's full decision-making authority; the AI provides a traceable analytical layer rather than autonomous prescriptions.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
Funding category
Funding further details
Financement d'un établissement public Français
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.