Votre rôle
L’objectif du stage est d’analyser le rôle que les LLMs peuvent jouer dans les workflows de détection d’intrusion, en particulier pour détecter les schémas d’attaque par mouvement latéral où un attaquant passe d’un hôte compromis à un autre au sein d’un réseau avec pour objectif d’atteindre des nœuds sensibles (pour voler des données sensibles, etc). Bien que la génération augmentée de récupération (RAG) soit parfois combinée avec le réglage fin (fine-tuning) comme technique pour fournir aux LLM des données contextuelles, ce RAG traditionnel est moins efficace en cas de Mouvement Latéral (Lateral Movement) où le processus d’attaque peut être structuré comme un graphe.
Dans le contexte de la détection d’intrusions, un problème clé est d’identifier les motifs (patterns) d’attaque temporelle à partir des journaux (logs). La littérature récente [1] montre que les approches combinant LLMs et Knowledge Graphs sont prometteuses, tout d’abord en utilisant les LLMs pour construire des Knowledge Graph (KG) de connaissance factuelle des motifs d’attaque connus dans le corpus documenté. Il faut ensuite tirer parti du KG pour détecter les modèles d’attaque à partir des journaux actuels à l’aide des LLM. Une approche que nous envisageons est d’encoder des informations structurelles (par exemple, les relations entre les événements) avec l’intégration de graphes (graph embedding, [3]).
Votre mission consiste à
- Identifier les jeux de données de cybersécurité (rapports d’intelligence sur les menaces de cybersécurité), pour extraire les schémas d’attaque.
- Basé sur l’état de l’art [2], identifier les outils pour construire des graphes de connaissances à partir du jeu de données.
- Concevoir des scénarios pour guider les LLMs à extraire les événements pertinents des journaux et à structurer les événements sous forme de graphes. Une question clé dans cette étape est de réduire le nombre d’événements non pertinents.
- En fonction de l’avancement, la dernière étape consistera à identifier des méthodes pour faire correspondre les graphes déduits des logs avec la base de connaissances afin de décider si une attaque s’est produite.
Vous aurez à votre disposition des logiciels, des jeux de données et des serveurs GPU pour l’expérimentation. Les résultats de votre travail peuvent être exploités par Orange pour améliorer ses centres d’opérations de sécurité renforcée par l’IA.
[1] Yongheng Zhang, et al. AttacKG+: Boosting Attack Knowledge Graph Construction with Large Language Models, https://dl.acm.org/doi/10.1016/j.cose.2024.104220
[2] Christos Smiliotopoulos, Georgios Kambourakis, Constantinos Kolias,
Detecting lateral movement: A systematic survey, https://doi.org/10.1016/j.heliyon.2024.e26317.
[3] Palash Goyal, Emilio Ferrara, Graph Embedding Techniques, Applications, and Performance: A Survey, https://api.semanticscholar.org/CorpusID:3953995
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.