Médiation de sécurité et explicabilité contrôlée pour la protection de la confidentialité des modèles de langage en phase d'inférence: proposition d'un mécanisme de contrôle de divulgation sémantique multiniveaux // security mediation and controlled expl

Orléans

INSA Centre Val de Loire

Pas de télétravail

Publiée le Il y a 22 h

Description de l'offre

Topic description

Cette thèse étudie les problèmes de confidentialité lors de l'utilisation des modèles de langage de grande taille (LLM). Le travail de recherche se concentrera sur la phase d'inférence interactive. On supposera que le LLM est une boîte grise. Les attaques considérées visent principalement la confidentialité des données, notamment par l'inférence de l'existence ou
du contenu de documents internes, la reconstruction d'informations sensibles à partir de réponses agrégées, ou la divulgation indirecte via reformulation ou abstraction. La première étape consistera à la définition d'un modèle de menace pour les LLM en
environnement potentiellement adversarial avec l'identification des surfaces de fuite (entrée, génération, sortie, explication) et formalisera les exigences de sécurité telles que la non-divulgation (directe ou indirecte), la robustesse face
aux requêtes adversariales, la notion de niveaux d'abstraction pour une explicabilité contrôlée.
La deuxième phase, qui est le coeur de la thèse, portera sur la conception d'un modèle de médiation de sécurité pour les LLM, intégrant (i) Un filtrage de sécurité des requêtes en entrée. Le cadre sera étendu à un environnement intégrant un module de Retrieval-Augmented
Generation, introduisant la problématique supplémentaire du contrôle d'accès aux sources documentaires. (ii) La conception d'un filtrage de sécurité des réponses générées. Le filtrage des réponses reposera sur une approche hybride combinant la reconnaissance d'entités sensibles spécifiques au domaine et un classifieur global de sensibilité
sémantique. (iii) Un mécanisme d'explication contrôlée permettant de fournir des justifications vérifiables à un niveau d'abstraction maîtrisé, distinctes des traces complètes réservées à l'audit interne.
Une dernière phase concernera la réalisation d'un outil expérimental développé afin d'implémenter l'architecture proposée autour d'un LLM. Un cas d'étude particulier pourra porter sur un déploiement en environnement d'entreprise avec un système RAG local alimenté par des données sensibles. Les expérimentations viseront à évaluer, selon des métriques de sécurité, d'utilité et d'explicabilité, l'efficacité des filtres ; la pertinence et le niveau d'abstraction des explications générées ; la robustesse du système face à des scénarios d'attaque simulés.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This thesis focuses on confidentiality issues when using large language models (LLMs). The research work will focus on the interactive inference phase. We will assume that the LLM is a gray box. The attacks considered primarily target data confidentiality, notably through the inference of the existence or
content of internal documents, the reconstruction of sensitive information from aggregated responses, or indirect disclosure via rephrasing or abstraction. The first step will consist of defining a threat model for LLMs in
a potentially adversarial environment, identifying leakage surfaces (input, generation, output, explanation), and formalizing security requirements such as non-disclosure (direct or indirect), robustness against
adversarial queries, and the concept of abstraction levels for controlled explainability.
The second phase, which is the core of the thesis, will focus on the design of a security mediation model for LLMs, integrating (i) Security filtering of input queries. The framework will be extended to an environment incorporating a Retrieval-Augmented
Generation module, introducing the additional challenge of controlling access to documentary sources. (ii) The design of security filtering for generated responses. Response filtering will be based on a hybrid approach combining domain-specific recognition of sensitive entities and a global semantic sensitivity classifier. (iii) A controlled explanation mechanism capable of providing verifiable justifications at a controlled level of abstraction, distinct from the complete audit trails reserved for internal auditing.
A final phase will involve the development of an experimental tool designed to implement the proposed architecture around an LLM. A specific case study may focus on a deployment in an enterprise environment with a local RAG system fed by sensitive data. The experiments will aim to evaluate, based on metrics of security, utility, and explainability, the effectiveness of the filters; the relevance and level of abstraction of the generated explanations; and the system's robustness against simulated attack scenarios.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/
WEB :

Funding category

Other public funding

Funding further details

ANR Financement d'Agences de financement de la recherche

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.