Nous recherchons un-e stagiaire en Machine Learning pour contribuer à un projet de recherche appliquée visant à entraîner un modèle de langage (LLM) spécialisé en cybersécurité.
Vos missions principales seront :
Collecte et préparation de données
* Récolter un large volume de données pertinentes : rapports d’audit de code, write-ups de CTFs, bases publiques de vulnérabilités, extraits de code vulnérable et patché.
* Nettoyer, normaliser et structurer ces données pour constituer un dataset exploitable et de qualité (classification, labellisation, filtrage du bruit).
Construction du dataset
* Définir une taxonomie adaptée (types de vulnérabilités, contextes, techniques d’exploitation).
* Organiser les données en sous-ensembles (train/validation/test) pour garantir la robustesse des futurs entraînements.
Fine-tuning d’un LLM
* Expérimenter le fine-tuning d’un modèle de langage sur les données collectées.
* Réaliser un premier entraînement sur un modèle de taille moyenne (proof of concept).
* Définir des métriques et un protocole de benchmark pour évaluer les résultats.
Évaluation et montée en échelle
* Comparer les performances entre modèle de base et modèle spécialisé (précision, rappel, qualité des réponses).
* Si les résultats sont probants, réaliser un entraînement sur un modèle de plus grande taille et analyser l’impact.
Restitution
* Rédiger un rapport technique détaillé sur la méthodologie, les résultats obtenus et les perspectives d’amélioration.
* Présenter vos conclusions à l’équipe et proposer des pistes pour industrialiser la démarche.
about you
Nous recherchons un(e) étudiant(e) en BAC+5 (Master ou école d’ingénieur) spécialisé en Machine Learning, avec un intérêt marqué pour la cybersécurité.
Compétences attendues :
* Solides bases en Machine Learning / Deep Learning, idéalement appliqué au NLP.
* Expérience avec les frameworks PyTorch ou TensorFlow.
* Maîtrise des outils et librairies de traitement du langage : Hugging Face Transformers, Datasets.
* Bonnes compétences en Python (data processing, entraînement ML).
* Connaissances en MLOps (Docker, Git, pipelines d’entraînement) appréciées.
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.