Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage m 2: système hybride d’optimisation du covoiturage étudiant: intégration planification offline et décisions dynamiques temps réel par apprentissage par renforcement h/f

Vandœuvre-lès-Nancy
Stage
Alternance
CESI
Publiée le 9 décembre
Description de l'offre

Intégrer Linéact au sein de CESI pour un stage de recherche serait une formidable opportunité de contribuer à des projets innovants, tout en approfondissant mes compétences dans un environnement à la pointe de la transformation numérique et de l’industrie 4.0.


Projet de stage


Sujet de stage résumé

Ce stage s’inscrit dans le cadre du projet "Mon Trajet Vert" et vise à développer un système hy- bride d’optimisation du covoiturage étudiant intégrant deux horizons temporels complémentaires

: une couche de planification offline (optimisation MILP à J-1) pour les étudiants confirmés, et une couche de décisions dynamiques temps réel (apprentissage par renforcement) pour gérer les demandes spontanées et les perturbations.

L’originalité de l’approche réside dans la coordination formalisée entre optimisation math- ématique et apprentissage automatique séquentiel. La méthodologie s’appuiera sur les travaux antérieurs du laboratoire. Le stage étendra ces infrastructures en développant un agent PPO (Proximal Policy Optimization) contraint opérant sur un graphe dynamique des opportunités de covoiturage.

Les statistiques du campus CESI Strasbourg révèlent que 32% des étudiants décident de leur venue moins de 24h avant le départ, et 15% d’annulations surviennent le jour même. Le système hybride proposé permettra de capturer ces opportunités tout en garantissant la stabilité des plans établis pour les étudiants planificateurs. L’approche combinera modélisation par processus de décision markovien contraint (CMDP), algorithmes de réoptimisation incrémentale, et validation expérimentale par simulation Monte Carlo sur données réelles, avec un potentiel de publication.


Projet de stage

Contexte scientifique

Les systèmes de covoiturage contemporains adoptent majoritairement soit une approche pure- ment planifiée (optimisation offline avec engagements à l’avance), soit une approche purement dynamique (matching temps réel sans préplanification). Cette dichotomie présente des limita- tions structurelles : les systèmes planifiés manquent de flexibilité face aux imprévus, tandis que les systèmes dynamiques souffrent d’une fragmentation des opportunités et d’une sous-optimalité globale.

État de l’art et positionnement scientifique

Les travaux récents sur l’optimisation du covoiturage étudiant [1, 2] ont établi des résultats prometteurs avec des réductions de véhicules de l’ordre de 35-51% via optimisation MILP multi- objectifs. Parallèlement, les approches d’apprentissage par renforcement pour le covoiturage dynamique [3, 4] ont démontré leur capacité à gérer des décisions séquentielles dans des environ- nements incertains. Cependant, l’intégration cohérente de ces deux paradigmes dans un cadre unifié reste largement inexplorée.

Les rares travaux hybrides existants [5, 6] utilisent soit des heuristiques de réaffectation sans garanties théoriques, soit des modèles simplifiés ne capturant pas la complexité des contraintes réelles (capacités véhicules, fenêtres temporelles, préférences utilisateurs). Notre approche se distingue par :

1. Formalisation CMDP rigoureuse : modélisation par processus de décision markovien contraint avec fonction de récompense multi-objectifs et contraintes explicites (temporelles, capacité, équité)

1. Architecture à deux couches coordonnées : décomposition claire entre planifica- tion stratégique (MILP) et gestion tactique temps réel (RL) avec mécanismes de verrouil- lage/flexibilité

1. Graphe dynamique des opportunités : représentation évolutive du réseau de cov- oiturage avec mise à jour incrémentale des compatibilités spatio-temporelles

1. Validation empirique robuste : simulation Monte Carlo sur 1000+ journées avec mod- élisation stochastique des annulations et demandes spontanées

Ces travaux s’inscrivent dans la continuité directe des recherches antérieures du laboratoire sur l’optimisation du covoiturage étudiant et l’apprentissage des préférences [7, 8], en les étendant au cadre dynamique avec des défis algorithmiques et théoriques significativement accrus.



Sujet de stage

Ce stage vise à développer un système hybride complet d’optimisation du covoiturage pour la mo- bilité étudiante du campus CESI Strasbourg, en capitalisant sur les infrastructures d’optimisation et de prédiction ML existantes. Le système intégrera de manière cohérente :

* Une couche planifiée offline : optimisation MILP multi-objectifs (réutilisation pipeline existant) pour étudiants confirmant leur venue à J-1 (68% de la population)

* Une couche dynamique online : agent d’apprentissage par renforcement (PPO contraint) gérant demandes spontanées (22%) et annulations (15%)

* Un module d’arbitrage ML : extension du réseau de neurones existant pour prédiction temps réel de l’acceptabilité des matchings proposés

* Des mécanismes de fallback : alternatives automatiques (transport public, vélo) en cas d’échec de matching

Le/la stagiaire travaillera en étroite collaboration avec l’encadrant sur la formalisation théorique du CMDP, l’implémentation de l’agent RL, l’intégration avec le pipeline d’optimisation existant, et la validation expérimentale rigoureuse. Le projet s’inscrit dans l’initiative "Mon Trajet Vert" et bénéficiera de l’accès aux données d’enquêtes et aux infrastructures de simulation SUMO existantes.


Objectifs de stage

Formalisation théorique et architecture système (Mois 1-2) :

* Modélisation CMDP : définition espace d’états (graphe opportunités dynamique), actions (assignation, création véhicule, refus), contraintes (temporelles, capacité, équité)

* Spécification fonction de récompense multi-objectifs (CO2, utilisation capacité, satisfaction, temps attente)

* Conception architecture à deux couches avec protocoles de communication (états verrouil- lés/flexibles, triggers de réoptimisation)

* Formalisation mécanismes de gestion de l’incertitude (modèles stochastiques annulations, prédiction fiabilité demandes)

Implémentation graphe dynamique et gestion événementielle (Mois 2-3) :

* Développement structure de données graphe dynamique (nœuds : étudiants/conducteurs, arêtes : compatibilités spatio-temporelles)

* Implémentation moteur événementiel (nouvelle demande, annulation, confirmation retardée)

* Algorithmes de mise à jour incrémentale du graphe (ajout/suppression nœuds, recalcul arêtes)

* Intégration avec simulation SUMO pour calcul temps réel des détours et temps de trajet



Développement agent d’apprentissage par renforcement (Mois 3-4) :

* Implémentation agent PPO contraint (Proximal Policy Optimization) avec réseaux acteur- critique

* Développement mécanisme de masquage d’actions (respect contraintes dures : temporelles, capacité, verrouillage)

* Intégration Lagrangien augmenté pour contraintes soft (équité, qualité service)

* Entraînement par simulation avec environnement reproduisant statistiques réelles (32% spontanés, 15% annulations)

Extension modèle ML pour prédictions temps réel (Mois 4-5) :

* Enrichissement features MLP existant avec variables temporelles (urgence, historique annu- lations, contraintes temps réel)

* Développement module de prédiction probabilité acceptation détour conducteur (seuil déci- sionnel dynamique)

* Estimation fiabilité demandes spontanées (probabilité show-up) pour gestion risque

* Intégration prédictions dans processus décisionnel agent RL (reward shaping)

* Validation expérimentale et analyse comparative (Mois 5-6) :

* Simulation Monte Carlo (1000 journées) avec paramétrisation stochastique (taux annulation 5-20%, proportion spontanés 20-40%)

* Comparaison rigoureuse 3 politiques : offline pur, online pur, hybride proposé

* Analyse de sensibilité (délai décision, capacité réseau, seuils acceptabilité)

* Développement dashboard interactif (visualisation décisions temps réel) et préparation ar- ticle scientifique


Livrables attendus

Livrables techniques

* Code source documenté : Dépôt GitHub public avec architecture modulaire (couche offline, couche RL, graphe dynamique), documentation Sphinx, et tests unitaires

* Agent RL entraîné : Modèle PPO sauvegardé avec checkpoints, logs d’entraînement (Ten- sorBoard), et métriques de convergence

* Dataset de simulation : Trajectoires d’épisodes (1000+ journées) avec événements annotés (demandes, annulations, décisions agent) sous licence CC BY 4.0

* Dashboard temps réel : Application web (Streamlit) pour visualisation live des décisions agent et comparaison politiques

* Guide de reproduction : Documentation complète installation, entraînement agent, et exécution benchmarks (20-30 pages)



Livrables scientifiques

* Mémoire de stage : Rapport complet 80-100 pages (formalisation CMDP, méthodologie RL, résultats expérimentaux, analyses)

* Article scientifique : Manuscrit soumissible à journal Q1 (Transportation Research Part B ou Operations Research)

* Communication conférence : Résumé étendu pour ROADEF 2027 ou conférence ML (NeurIPS Workshop on RL for Real Life)

* Présentation soutenance : Slides + démonstration live du système hybride (durée 30-40 min)



Livrables

* Vidéo démonstration : Screencast 5-7 minutes montrant agent RL en action (gestion demandes spontanées, réaffectations dynamiques)

* Rapport d’impact : Quantification gains système hybride vs politiques baseline (réduction véhicules, taux service, satisfaction)

* Analyse de scalabilité : Étude performance computationnelle (temps décision, capacité réseau) pour déploiement opérationnel (100-300 étudiants)


Contexte


Présentation du laboratoire

CESI LINEACT (UR 7527), Laboratoire d'Innovation Numérique pour les Entreprises et les Apprentissages au service de la Compétitivité des Territoires, anticipe et accompagne les mutations technologiques des secteurs et des services liés à l’industrie et au BTP. La proximité historique de CESI avec les entreprises est un élément déterminant pour nos activités de recherche, et a conduit à concentrer les efforts sur une recherche appliquée proche de l’entreprise et en partenariat avec elles. Une approche centrée sur l’humain et couplée à l’utilisation des technologies, ainsi que le maillage territorial et les liens avec la formation, ont permis de construire une recherche transversale ; elle met l’humain, ses besoins et ses usages, au centre de ses problématiques et aborde l’angle technologique au travers de ces apports.

Sa recherche est organisée selon deux équipes scientifiques interdisciplinaires et plusieurs domaines applicatifs.

L’équipe 1 "Apprendre et Innover" relève principalement des Sciences cognitives, Sciences sociales et Sciences de gestion, Sciences et techniques de la formation et celles de l’innovation. Les principaux objectifs scientifiques visés sont la compréhension des effets de l'environnement, et plus particulièrement des situations instrumentées par des objets techniques (plateformes, ateliers de prototypage, systèmes immersifs...) sur les processus d'apprentissage, de créativité et d’innovation.

L’équipe 2 "Ingénierie et Outils Numériques" relève principalement des Sciences du Numérique et de l'Ingénierie. Les principaux objectifs scientifiques portent sur la modélisation, la simulation, l’optimisation et le pilotage de composants, systèmes et processus complexes et des interactions Humains-systèmes dans des systèmes cyber-physiques et jumeaux numériques.

Ces deux équipes développent et croisent leurs recherches dans les domaines applicatifs de l'Industrie du Futur, de la Ville du Futur et des services numériques, soutenues par des plateformes de recherche, principalement celle de Rouen dédiée à l’Usine du Futur et celles de Nanterre dédiée à l’Usine et au Bâtiment du Futur.

Positionnement dans les thématiques de recherche du laboratoire

Ce stage s’inscrit pleinement dans les activités de l’équipe 2 "Ingénierie et Outils Numériques", particulièrement dans les axes modélisation, optimisation et analyse de données de systèmes cy- ber physiques. Le sujet contribue également au domaine applicatif Ville du Futur en abordant

les enjeux de mobilité urbaine durable et de systèmes de transport adaptatifs.

L’optimisation hybride offline-online représente une thématique émergente en recherche opéra- tionnelle et apprentissage automatique, combinant programmation mathématique, processus dé- cisionnels markoviens et apprentissage par renforcement. Ce stage permettra au laboratoire de:

* Valoriser et étendre les infrastructures existantes (SUMO, MILP, MLP) vers le domaine de l’optimisation dynamique

* Développer une expertise sur les architectures hybrides combinant optimisation et apprentis- sage par renforcement

* Renforcer la position du laboratoire dans le domaine des systèmes de transport intelligents adaptatifs

* Ouvrir des perspectives de collaboration avec plateformes de mobilité (BlaBlaCar Campus, Karos) et opérateurs de transport




Profil recherché :

* Étudiant(e) en Master 2 Recherche Opérationnelle, Intelligence Artificielle, Data Science, ou équivalent

* Élève-ingénieur(e) 5ème année avec spécialisation RL/Optimisation/Transport

* Fort intérêt pour les systèmes décisionnels séquentiels et l’optimisation sous incertitude

* Motivation pour la publication scientifique et potentiellement une poursuite en thèse

Compétences scientifiques et techniques :

* Apprentissage par renforcement : Solides connaissances en RL (Q-learning, DQN, Pol- icy Gradient, PPO). Expérience pratique avec frameworks (Stable-Baselines3, Ray RLlib) fortement valorisée.

* Recherche opérationnelle : Bonnes connaissances en programmation linéaire mixte (MILP), optimisation multi-objectifs, et compréhension des compromis optimisation exacte vs heuris- tique.

* Programmation scientifique avancée : Excellente maîtrise Python (NumPy, Pandas, PyTorch/TensorFlow, OR-Tools/Gurobi). Expérience avec architectures événementielles et systèmes temps réel.

* Modélisation stochastique : Compréhension des processus de décision markoviens (MDP/CMDP), théorie des graphes dynamiques, et gestion de l’incertitude.

* Rigueur méthodologique : Capacité à mener une démarche scientifique complète incluant formalisation mathématique, implémentation, validation expérimentale et analyse statistique.

Compétences relationnelles :

* Autonomie et esprit d’initiative dans la conduite de travaux de recherche appliquée

* Capacité à travailler en équipe pluridisciplinaire (optimisation, ML, transport)

* Rigueur et méthodologie dans l’approche scientifique et la documentation technique

* Bonnes capacités rédactionnelles en français et anglais scientifique

Gratification à 15% du plafond horaire de la Sécurité Sociale

Date de début : Février 2026

Votre candidature devra comporter :

* Un Curriculum-Vitae ;

* Une lettre de motivation pour le sujet ;

* Notes du parcours (Licence ou autre) et du master en cours ;

* Lettres de recommandation si disponibles.

Références.

1. El Mourabit, B., & Bezoui, M. (2025). "Conception d’un système d’optimisation de trajets partagés pour la mobilité étudiante." Rapport de stage Master IMSD, Université de Lorraine.

1. Ibnelbey, R., & Bezoui, M. (2025). "Preference-based multi-criteria optimization for student transportation: A machine learning approach." Actes ROADEF 2025, Champs-sur-Marne, France.

1. Wen, J., Zhao, J., & Jaillet, P. (2017). "Rebalancing shared mobility-on-demand systems: A reinforcement learning approach." 20th IEEE International Conference on Intelligent Trans- portation Systems (ITSC), 220-225.

1. Lin, K., Zhao, R., Xu, Z., & Zhou, J. (2018). "Efficient large-scale fleet management via multi-agent deep reinforcement learning." Proceedings of the 24th ACM SIGKDD, 1774-1783.

1. Ma, T. Y., Rasulkhani, S., Chow, J. Y., & Klein, S. (2019). "A dynamic ridesharing dispatch and idle vehicle repositioning strategy with integrated transit transfers." Transportation Re- search Part E: Logistics and Transportation Review, 128, 417-442.

1. Alonso-Mora, J., Samaranayake, S., Wallar, A., Frazzoli, E., & Rus, D. (2017). "On-demand high-capacity ride-sharing via dynamic trip-vehicle assignment." Proceedings of the National Academy of Sciences, 114(3), 462-467.

1. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347.

1. Altman, E. (1999). "Constrained Markov decision processes." CRC Press, Vol. 7.

1. Agatz, N., Erera, A., Savelsbergh, M., & Wang, X. (2012). "Optimization for dynamic ride-sharing: A review." European Journal of Operational Research, 223(2), 295-303.

1. Furuhata, M., et al. (2013). "Ridesharing: The state-of-the-art and future directions."

Transportation Research Part B: Methodological, 57, 28-46.

1. Bezoui, M., Olteanu, A. L., & Sevaux, M. (2022). "Integrating preferences within multi- objective flexible job shop scheduling." European Journal of Operational Research, 305(3), 1079-1086.

1. Sutton, R. S., & Barto, A. G. (2018). "Reinforcement learning: An introduction." MIT press, Second Edition.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Stage m 2: développement d’un robot tiago++ pour la livraison sécurisée de médicaments dans un étage hospitalier h/f
Vandœuvre-lès-Nancy
Stage
CESI
Offre similaire
Stage m2: développeur power platform
Vandœuvre-lès-Nancy
Stage
CESI
Offre similaire
Stage m 2: réseaux de neurones informés par la physique (pinns) pour la modélisation des transferts de chaleur et d’humidité couplés dans un mur de bâtiment h/f
Vandœuvre-lès-Nancy
Stage
CESI
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement CESI
Emploi CESI à Vandœuvre-lès-Nancy
Emploi Vandœuvre-lès-Nancy
Emploi Meurthe-et-Moselle
Emploi Lorraine
Intérim Meurthe-et-Moselle
Intérim Lorraine
Accueil > Emploi > Stage M 2: Système hybride d’optimisation du covoiturage étudiant: intégration planification offline et décisions dynamiques temps réel par apprentissage par renforcement H/F

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder