Votre rôle
Nous recherchons un-e stagiaire en Machine Learning pour contribuer à un projet de recherche appliquée visant à entraîner un modèle de langage (LLM) spécialisé en cybersécurité.
Vos missions principales seront :
Collecte et préparation de données
- Récolter un large volume de données pertinentes : rapports d’audit de code, write-ups de CTFs, bases publiques de vulnérabilités, extraits de code vulnérable et patché.
- Nettoyer, normaliser et structurer ces données pour constituer un dataset exploitable et de qualité (classification, labellisation, filtrage du bruit).
Construction du dataset
- Définir une taxonomie adaptée (types de vulnérabilités, contextes, techniques d’exploitation).
- Organiser les données en sous-ensembles (train/validation/test) pour garantir la robustesse des futurs entraînements.
Fine-tuning d’un LLM
- Expérimenter le fine-tuning d’un modèle de langage sur les données collectées.
- Réaliser un premier entraînement sur un modèle de taille moyenne (proof of concept).
- Définir des métriques et un protocole de benchmark pour évaluer les résultats.
Évaluation et montée en échelle
- Comparer les performances entre modèle de base et modèle spécialisé (précision, rappel, qualité des réponses).
- Si les résultats sont probants, réaliser un entraînement sur un modèle de plus grande taille et analyser l’impact.
Restitution
- Rédiger un rapport technique détaillé sur la méthodologie, les résultats obtenus et les perspectives d’amélioration.
- Présenter vos conclusions à l’équipe et proposer des pistes pour industrialiser la démarche.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.