Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

[stage r&d] : machine learning : biais et discrimination dans les modèles basés sur les arbres (xgboost, lightgbm...)

Paris
CDI
Stage
Artefact
R&D
Publiée le 17 juillet
Description de l'offre

Contexte :

Offre de stage de recherche de master d’une durée de 4 à 6 mois, débutant en automne 2025. Ce document liste les possibles directions pour le stage, qui seront ajustées au fil du stage. Le stage aura lieu au sein du centre de recherche d’Artefact à Paris.

L’objectif est d'étudier les modèles à base d’arbre dans un cadre où l’on souhaite avoir une distribution en sortie du modèle identique pour plusieurs sous-groupes de population présent dans les données.

Présentation d’Artefact :

Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée en délivrant des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises. L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit de l’innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et l’accompagnement au changement.

Sujet :

Le machine learning comporte de nombreuses applications en entreprise, avec un grand nombre de problèmes qui s’expriment avec des données tabulaires, indiquant typiquement l’âge, le genre, ou le pays de clients. Pour cette structure de données, les modèles à base d’arbres, tels que les forêts aléatoires ou les adaptations du gradient boosting (XGboost [1], LightGBM [2], Catboost [3]), sont régulièrement choisis et déployés dans des projets industriels impliquant du machine learning. Ceci s’explique avant tout par leur performance prédictive observée dans les tâches supervisées, et une facilité “prêt à l’emploi” qui ne requiert pas ou peu de préparation des données.

Certains cas d’usage industriels nécessitent un contrôle absolu du comportement du modèle. En effet, il est parfois imposé ou recommandé de ne pas discriminer une partie de la population. Ce risque est particulièrement présent dans le cas d’apprentissage statistique, où l’objectif est souvent purement de maximiser la précision sur le jeu d’apprentissage. La discrimination se retrouve ainsi présente dans le modèle final, par exemple par reproduction de schémas de discrimination présents dans les données. Cet enjeu est un domaine de recherche actuel, dénommé fairness, et est particulièrement dynamique, avec la réglementation des modèles d’IA qui évolue, comme par exemple avec l’AI Act de l’Union Européenne.

Durant ce stage, le/la stagiaire aura comme sujet d’explorer les méthodes de réduction des biais, autrement dit des discriminations, pour un modèle à base d’arbre (XGBoost [1], LightGBM [2], GradientBoosting[4]). Cela commencera par une implémentation des méthodes existantes listées dans les références [5-18], et d’établir un protocole robuste pour comparer ces méthodes et de comprendre leurs limites. Dans un second temps, le stage se concentrera sur l’invention et l’expérimentation de nouvelles méthodes de réduction de biais pour ces modèles. Pour cela, le/la stagiaire pourra partir de packages open source, comme scikit-learn ou LightGBM, pour implémenter de nouvelles méthodologies, et ainsi rester dans un cadre de code scalable et facile à adopter.

Pré-requis

Le profil recherché pour ce poste est le suivant :

* BAC+4/BAC+5 : Formation en mathématiques appliquées, statistiques ou machine learning au sein d’une université ou école d’ingénieur
* Stage de césure ou stage de fin d’études
* Date de début : Septembre 2025
* Durée : 4 à 6 mois

Références

1. Chen T, Guestrin C. Xgboost: A scalable tree boosting system. InProceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining 2016 Aug 13 (pp. 785-794).

1. Ke G, Meng Q, Finley T, Wang T, Chen W, Ma W, Ye Q, Liu TY. Lightgbm: A highly efficient gradient boosting decision tree. Advances in neural information processing systems. 2017;30.

1. Prokhorenkova L, Gusev G, Vorobev A, Dorogush AV, Gulin A. CatBoost: unbiased boosting with categorical features. Advances in neural information processing systems. 2018;31.

1. Friedman JH. Greedy function approximation: a gradient boosting machine. Annals of statistics. 2001 Oct 1:1189-232.



1. Colakovic I, Karakatić S. Adaptive boosting method for mitigating ethnicity and age group unfairness. SN Comput Sci. 2023;5(1):10.

2. Cruz AF, Belém C, Jesus S, Bravo J, Saleiro P, Bizarro P. Fairgbm: Gradient boosting with fairness constraints. arXiv preprint arXiv:2209.07850. 2022.

3. Ding F, Hardt M, Miller J, Schmidt L. Retiring adult: New datasets for fair machine learning. Adv Neural Inf Process Syst. 2021;34:6478-6490.

4. Gouic TL, Loubes J-M, Rigollet P. Projection to fairness in statistical learning. arXiv preprint arXiv:2005.11720. 2020.

5. Grari V, Ruf B, Lamprier S, Detyniecki M. Fair adversarial gradient tree boosting. In: 2019 IEEE International Conference on Data Mining (ICDM); 2019 Dec 8-11; Beijing, China. IEEE; 2019. p. 1060-5.

6. Huang X, Li Z, Jin Y, Zhang W. Fair-adaboost: Extending adaboost method to achieve fair classification. Expert Syst Appl. 2022;202:117240.

7. Iosifidis V, Ntoutsi E. Adafair: Cumulative fairness adaptive boosting. In: Proceedings of the 28th ACM International Conference on Information and Knowledge Management; 2019 Nov 3-7; Beijing, China. New York: ACM; 2019. p. 781-90.

8. Iosifidis V, Roy A, Ntoutsi E. Parity-based cumulative fairness-aware boosting. Knowl Inf Syst. 2022;64(10):2737-70.

9. Little CO, Allen GI. Fair mp-boost: Fair and interpretable minipatch boosting. In: ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP); 2025 May 11-15; Brisbane, Australia. IEEE; 2025. p. 1-5.

10. Pereira JSDB, Valdrighi G, Raimundo MM. M$^2$fgb: A min-max gradient boosting framework for subgroup fairness. In: Proceedings of the 2025 ACM Conference on Fairness, Accountability, and Transparency; 2025 Apr 19-23; Istanbul, Turkey. New York: ACM; 2025. p. 3106-18.

11. Ranzato F, Urban C, Zanella M. Fair training of decision tree classifiers. arXiv preprint arXiv:2101.00909. 2021.

12. Roy A, Iosifidis V, Ntoutsi E. Multi-fairness under class-imbalance. In: International Conference on Discovery Science; 2022 Nov 4-7; Amsterdam, Netherlands. Berlin: Springer; 2022. p. 286-301.

13. Song X, Liu Z, Jiang B. Adaptive boosting with fairness-aware reweighting technique for fair classification. Expert Syst Appl. 2024;250:123916.

14. Yao W, Zhou Z, Li Z, Han B, Liu Y. Understanding fairness surrogate functions in algorithmic fairness. arXiv preprint arXiv:2310.11211. 2023.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Chargé d'études statistiques et actuarielles h/f
Saint-Cloud
CDI
FILASSISTANCE
Chargé d'études statistiques
De 38 000 € à 48 000 € par an
Offre similaire
Consultant en financement de l'innovation et de la r&d h/f
Paris
CDI
Fidal
R&D
Offre similaire
Ingenieur recherche & expertise essais feu h/f
Champs-sur-Marne
CDI
Cstb
Ingénieur de recherche
De 51 000 € à 55 000 € par an
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Ingénierie à Paris
Emploi Paris
Emploi Paris
Emploi Ile-de-France
Intérim Ingénierie à Paris
Intérim Paris
Intérim Paris
Intérim Ile-de-France
Accueil > Emploi > Emploi Ingénierie > Emploi R&D > Emploi R&D à Paris > [Stage R&D] : Machine Learning : biais et discrimination dans les modèles basés sur les arbres (XGBoost, LightGBM...)

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder