Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

[stage r&d] : calibration des scores de pertinence pour la recherche d’information en contexte rag

Paris
CDI
Stage
Artefact
R&D
Publiée le 5 mai
Description de l'offre

Présentation d’Artefact

Artefact est une société française spécialisée dans le déploiement de technologies d’IA et de solutions data dont la mission est d’accélérer l'adoption des données et de l'IA afin d’avoir un impact positif sur les individus et les organisations.

Spécialiste en transformation data et en digital & data marketing, Artefact transforme la donnée en impact business et délivre des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises. L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, allie le meilleur de l’expertise technologique et de l’excellence opérationnelle, permettant ainsi à ses clients de devenir des champions de l’IA et d’atteindre leurs objectifs business de façon dédiée et efficace.La raison d’être d’Artefact “We accelerate data and AI adoption to positively impact people and organizations” s’inscrit dans une vision plus large que l’entreprise souhaite porter en façonnant un futur dans lequel l'IA est non seulement un outil puissant, éthique et transparent mais également adapté aux besoins des individus et des entreprises.

Forts de dix ans d’expérience, plus de 300 entreprises internationales ont accordé leur confiance à Artefact depuis sa création. Couvrant l’Europe, l’Asie, l’Amérique du Nord, l’Amérique Latine et l’Afrique grâce à notre implantation locale dans 24 bureaux, nous travaillons avec des marques internationales de premier rang, telles que Orange, Samsung, L’Oréal, ou Sanofi à travers le monde.


Contexte

Les modèles encodeurs sont au cœur du traitement automatique du langage (NLP), en particulier pour les tâches de représentation sémantique de textes. Une application essentielle de ces modèles est la recherche d’information, dont le but est de retrouver, au sein d’une base documentaire, les documents les plus pertinents vis-à-vis d’une requête utilisateur.

L’approche dominante repose sur la conversion des requêtes et des documents en représentations vectorielles via un encodeur, permettant ensuite de mesurer leur similarité (produit scalaire, cosinus, etc.). Cette étape de récupération est également un composant fondamental du paradigme RAG (Retrieval-Augmented Generation), où les documents retrouvés sont ensuite utilisés comme contexte pour générer une réponse à l’aide d’un modèle génératif [Lewis et al., 2020].


Problématique

Les systèmes de recherche actuels sont généralement entraînés à l’aide de jeux de données semi-supervisés contenant des paires requête-document labellisées positives. Ces modèles prédisent des scores de pertinence relatifs, utiles pour trier des documents, mais insuffisants pour discriminer ceux qui sont réellement pertinents de ceux qui ne le sont pas [Xiong et al., 2021].Ce manque de seuil clair pose un problème critique en contexte RAG : si les documents récupérés ne sont pas pertinents, le modèle génératif peut tout de même tenter de produire une réponse, en s’appuyant sur un contenu hors sujet ou en « halluciner » des faits [Shuster et al., 2021]


Objectif du stage

L’objectif de ce stage est d’explorer des méthodes permettant de transformer les scores de pertinence continus en décisions binaires (pertinent / non pertinent), en vue d’un filtrage plus fiable des documents avant génération.


Axes de travail suggérés


Méthodes de seuillage :

* Développement d’heuristiques simples : définir des règles empiriques sur les scores (ex. : seuils fixes) pour classifier les documents.
* Calibration par validation : utiliser un jeu de calibration pour apprendre des seuils adaptatifs à partir des distributions de scores (ex. : par requête, par corpus, etc.).
* Méthodes d’apprentissage : s’inspirer d’approches comme SigLIP pour former un modèle à distinguer explicitement les documents pertinents des non-pertinents, et non seulement à les classer [Touvron et al., 2023].


Evaluation des approches :

* Métriques classiques : les différentes méthodes seront évaluées à l’aide de métriques standard (F1-score), sur des jeux de données de retrieval annotés.

Dans une pipeline de RAG : En complément, les stratégies de seuillage pourront être intégrées dans une pipeline RAG complet, afin de mesurer leur impact sur la qualité des réponses générées [Izacard et al., 2021].


Conditions du stage et profil attendu

* Stage de césure ou de fin d’études
* Durée: 4 à 6 mois
* Début: rentrée 2025 (septembre ou octobre)
* BAC+4/BAC+5 : Formation en machine learning/statistiques au sein d’une université ou école d’ingénieur


Bibliographie

* Attention Is All you Need, Vaswani et al., 2017
* BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Devlin et al., 2019Dense Passage Retrieval for Open-Domain Question Answering, Karpukhin et al., 2020
* Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Lewis et al., 2020
* Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval, Xiong et al., 2021
* Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering, Izacard & Grave, 2021
* Retrieval Augmentation Reduces Hallucination in Conversation, Shuster et al., 2021
* SigLIP: Scaling and Improving Vision-Language Models with Sigmoid Loss, Touvron et al., 2023

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Stagiaire en recherche et développement
Boulogne-Billancourt
Stage
Peters Surgical
R&D
Offre similaire
Stage : nouvelle architecture d'ia
Issy-les-Moulineaux
Stage
Capgemini
R&D
Offre similaire
Head of engineering & maintenance - r&d site h/f (cdi)
Saint-Maur-des-Fossés
CDI
Alerys
R&D
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Ingénierie à Paris
Emploi Paris
Emploi Paris
Emploi Ile-de-France
Intérim Ingénierie à Paris
Intérim Paris
Intérim Paris
Intérim Ile-de-France
Accueil > Emploi > Emploi Ingénierie > Emploi R&D > Emploi R&D à Paris > [Stage R&D] : Calibration des Scores de Pertinence pour la Recherche d’Information en Contexte RAG

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder