Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage masquage de l'attention pour le traitement des variables manquantes sur les données tabulaires f/h

Lannion
Stage
Orange Business Services
Publiée le 23 octobre
Description de l'offre

About the role

#Machinelearning #IA #apprentissageautomatique #PyTorch #scikit-learn #optuna

Contexte : Que ce soit sous forme de tableaux de données marketing, de logs réseau ou de logs machines, les données tabulaires sont omniprésentes chez Orange. Les avancées des réseaux de neurones, en particulier des transformers, sont indéniables dans les domaines du texte, de l’image ou de l’audio. Cependant, paradoxalement, ils sont assez inefficaces sur les données tabulaires. En effet, les données tabulaires sont souvent hétérogènes. Elles combinent des variables catégorielles et continues avec des distributions complexes, tronquées ou discrètes. Certaines tables contiennent également des variables ordinales, des champs textuels et des dates. Il est aussi très courant d’avoir des données manquantes.

Ainsi, lorsqu’il s’agit de déployer des modèles prédictifs sur des données tabulaires, les outils d’apprentissage automatique "classiques" comme XGBoost ou Khiops restent de loin les plus efficaces et les plus robustes [2].

Mais dans certains cas, il peut être nécessaire de combiner des données tabulaires avec d’autres contenus, tels que des images, des textes ou des séries temporelles ; on peut aussi vouloir réaliser une adaptation de domaine ou un apprentissage par transfert avec des fonctions de coût adaptées. Dans ces situations, la flexibilité des réseaux de neurones est très intéressante.

Mais pour atteindre la performance des modèles classiques, nous devons utiliser des encodages et des architectures appropriés [3], et nous devons gérer correctement les variables manquantes. Dans [4], les auteurs proposent d’utiliser le masquage d’attention à la place de l’imputation.

L’objectif principal de ce stage est d’améliorer la méthode proposée dans [4] et d’évaluer si la gestion des valeurs manquantes par masquage d’attention apporte des améliorations par rapport à l’imputation classique.

Nous établirons d’abord un état de l’art sur les transformers appliqués aux données tabulaires et sur la gestion des valeurs manquantes [voir par exemple 1, 4, 5]. Nous étudierons ensuite l’impact des méthodes de masquage d’attention pour traiter différents scénarios de données manquantes : Missing Completely At Random (MCAR), Missing At Random (MAR) ou Missing Not At Random (MNAR) [5]. Nous comparerons avec des méthodes d’imputation standards (valeurs constantes, moyennes, plus proches voisins, etc.) et des modèles tabulaires de l’état de l’art (Khiops, XGBoost)

[1] Revisiting Deep Learning Models for Tabular Data. NeurIPS 2021.

[2] Why do tree-based models still outperform deep learning on typical tabular data? NeurIPS 2022.

[4] Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets. 2024. Preprint.

[5] Still More Shades of Null: A Benchmark for Responsible Missing Value Imputation. 2024. Preprint.

about you

- Vous êtes ingénieur ou master en mathématiques/informatique, science des données, apprentissage statistique.

- Vous avez un intérêt équilibré pour les aspects théoriques et techniques de l’apprentissage automatique.

- Vous aimez lire et analyser des articles scientifiques et la partie rédactionnelle

- La maîtrise de l’anglais, de Linux et de PyTorch est essentielle.

additional information

- Le stage se déroulera dans une équipe de recherche et développement multiculturelle de haut niveau, dont l’expertise en traitement statistique des données et apprentissage est reconnue au sein d’Orange et à l’international ;

- Les travaux issus de ce stage pourront faire l’objet d’une publication ;

- Le cadre de vie à Lannion, en bord de mer

- des opportunités de poursuite sur des sujets de thèse dans l’équipe sont possibles;

department

Basée à Lannion (22), au sein d'Orange Innovation, l'équipe Machine Learning & PROFiling déploie son activité dans le domaine des statistiques, machine learning et intelligence artificielle, depuis des travaux fondamentaux jusqu'à l'accompagnement des unités opérationnelles d'Orange sur des cas d'usage précis.

L'équipe se compose d'une vingtaine de permanents et accueille actuellement quatre doctorants.

contract

Internship

Start date : 01 Apr 2025

Niveau d’études préparé pendant le stage Indemnité brute selon école Bac+5 de 1572 € à 2096 € / mois

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Stage de recherche - classification de données temporelles multi-table avec concept-drift f/h
Lannion
Stage
Orange Business Services
Offre similaire
Stage - développement full-stack d'un démonstrateur pour l'anonymisation de contenus audio f/h
Lannion
Stage
Orange Business Services
Offre similaire
Stage recherche - llm et dialogue multimodal f/h
Lannion
Stage
Orange Business Services
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Orange Business Services
Emploi Orange Business Services à Lannion
Emploi Lannion
Emploi Côtes-d'Armor
Emploi Bretagne
Intérim Lannion
Intérim Côtes-d'Armor
Intérim Bretagne
Accueil > Emploi > Stage Masquage de l'attention pour le traitement des variables manquantes sur les données tabulaires F/H

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder