Ingénieur telecom

Lingolsheim

CESI

Ingénieur télécom

Publiée le Il y a 6 h

Description de l'offre

Entreprise :

CESI est une école d'ingénieurs qui fait de la promotion sociale par l'excellence un modèle de réussite. Rejoignez un environnement stimulant où l'esprit d'équipe, la diversité des projets et l'autonomie ne font qu'un. Découvrez une école qui a su développer un modèle unique et se donne les moyens au quotidien de relever les grands défis de l'époque. Nos 25 campus, 28 000 étudiants, 8000 entreprises partenaires et 106 000 alumni témoignent de l'impact de CESI au niveau national.

CESI accompagne ses étudiants en utilisant des méthodes innovantes de pédagogie active. L'établissement forme avec rigueur les futurs ingénieurs, techniciens et managers, dans les secteurs suivants : l'Industrie & l'Innovation, le BTP, l'Informatique et le Numérique et le Développement Durable. Parallèlement, CESI concrétise son engagement dans la Recherche à travers des activités menées au sein de son Laboratoire d'Innovation Numérique, CESI LINEACT.

Les partenariats établis avec 130 universités à travers le globe, attestent de l'engagement international de CESI. Ces liens privilégiés offrent aux élèves ingénieurs une mobilité sortante et entrante à l'échelle internationale, façonnée notamment par des stages obligatoires faisant partie intégrante de leur cursus.

Description du poste :

Sujet de thèse : Interactions vocales homme-robot efficaces

Travaux de recherche

Contexte scientifique

Avec le vieillissement de la population, la robotique d'assistance est en plein essor. Les robots ont un rôle à jouer, mais doivent pour cela disposer de fonctionnalités robustes et transparentes pour être largement adoptés. Dans ces conditions, le moyen d'interaction naturel est la voix. La reconnaissance vocale en particulier permet de transcrire les requêtes utilisateurs en langage naturel, puis de les convertir en actions pour répondre aux sollicitations. Cette composante vocale renferme d'autres informations à exploiter en vue d'enrichir les services d'un tel système robotique. En particulier, la voix permet d'identifier l'émetteur d'une requête énoncée à l'oral afin d'en personnaliser la réponse. L'onde sonore donne également au robot la possibilité de localiser la source d'émission et de se diriger

vers l'interlocuteur afin d'engager l'interaction. Tous ces traitements requièrent une plateforme de calculs robuste et son exploitation adaptative selon la localisation du robot, les conditions réseau et l'occupation des ressources. De plus, les opérations d'inférence sont gourmandes en ressources et réduisent d'autant l'exécution de fonctionnalités annexes, ou peuvent être perturbés par des opérations critiques. Notre plateforme de services autour de la voix, dénommée Vo-CAIRbot (Voice Control And Interaction for assistive RoBotics Operations in multi-user environments) devra alors combiner robustesse et performance pour être viable et assurer un haut niveau de qualité d'expérience (QoE) auprès d'un public en perte d'autonomie.

Sujet de thèse

L'intégration réussie de solutions de robotique d'assistance repose pour partie sur la capacité et fluidité d'interaction avec les acteurs humains. Y aboutir se traduit par des flottes de robots en mesure de réagir avec transparence et robustesse aux sollicitations utilisateur. Cela n'est pas anodin car lié à la puissance de calcul embarquée pour atteindre des temps de réponse satisfaisants. Aussi, concevoir un robot capable de s'intégrer dans un environnement humain et de répondre efficacement aux sollicitations requiert des briques de base solides et optimisées. Pour un public en perte d'autonomie la voix constitue un relais de communication important avec des systèmes robotisés. Au delà du langage naturel, l'information vocale embarque des caractéristiques supplémentaires exploitables pour fournir une offre de services enrichie. Nous explorons trois pans essentiels d'interactions à la voix pour faciliter l'acceptation des robots d'assistance et simplifier leur utilisation :

- L'onde sonore peut alors être exploitée pour fournir une information de localisation [8, 7, 3], utile aux besoins de communication visuelle avec les personnes. Cette information est combinée avec une technique de localisation indoor pré-existante pour calculer un emplacement dans la zone d'intérêt considérée. En effet, un réseau de microphone embarqué permet d'identifier la source d'émanation d'une commande vocale et de s'y rendre de manière itérative.

- L'interaction vocale avec un robot repose sur la transcription et l'interprétation de la parole du locuteur [6]. Ces opérations mobilisent des modèles d'apprentissage profond de grande complexité, conçus pour prendre en compte les variabilités acoustiques, prosodiques et linguistiques inhérentes à la parole humaine. Toutefois, leur intégration sur des plateformes robotiques aux ressources limitées impose des contraintes strictes en termes de calcul et de mémoire, nécessitant l'adoption de techniques d'optimisation avancées visant à réduire leur taille et leur charge computationnelle sans compromettre les performances [4].

- L'empreinte vocale propre aux individus est alors également exploitable pour simplifier et personnaliser les interactions. En effet, dans un contexte multi-utilisateurs, cette information permet au robot de localiser la personne qui parle et d'interagir avec elle.

Nous nous proposons d'investiguer les techniques d'IA temps-réel capables de répondre à nos problèmes. La complexité des calculs combinée aux contraintes de l'environnement d'exécution, l'exigence de réactivité et la confidentialité des échanges nécessitent des approches originales pour accélérer les traitements de machine learning. En effet, les robots embarquent une puissance de calcul limitée, soumise à un taux d'occupation variable et à une enveloppe énergétique contrainte. En réponse, nous mobiliserons des infrastructures d'edge computing pour atteindre un haut niveau de qualité d'expérience (QoE).

Plusieurs approches, basées sur une répartition optimale des calculs, seront alors à investiguer en plus des traditionnelles techniques d'élagage, de quantification [5] et de distillation de connaissances. On s'intéressera notamment aux techniques de partitionnement pour répartir efficacement les opérations d'inférence sur les périphériques edge [2]. Tenir compte de l'état de l'infrastructure est alors essentiel pour arriver à maintenir un haut niveau de performances et affecter une charge de travail adéquate aux nœuds de calcul. Pour maximiser les performances, il est alors crucial d'exploiter au mieux la localité des données et d'éviter des transmissions coûteuses. De plus, l'exécution concurrente de certaines opérations sur des périphériques hétérogènes par nature, via, par exemple, du parallélisme de tenseur ou du parallélisme en pipeline, en contextes multi-utilisateurs, sera également investigué. Finalement, les phases d'entraînement pourront s'appuyer sur

des techniques d'apprentissage fédérées, déjà largement investiguées dans nos travaux [1].

Pour résumer, l'objectif de la thèse est alors de répondre aux cas d'usage énoncés, pour implémenter une plateforme d'interaction vocale, dotée des services suivants :

1. Localisation de l'émetteur d'un signal vocal.

2. Reconnaissance vocale et transcription en langage naturel.

3. Identification de l'interlocuteur.

Ces services devront concilier un haut niveau de performances afin de fournir la meilleure expérience utilisateur.

Programme de travail

Le programme de travail prévisionnel est énuméré ci-dessous :

- Inscription ED 432, état de l'art, définition d'une méthodologie de recherche.

- Conception de modèles d'IA performants pour la localisation et la séparation des voix puis soumission de papier.

- Développement de modèles d'IA performants pour la reconnaissance vocale et soumission de papier.

- Proposition de méthodes innovantes d'optimisation des modèles d'IA et d'optimisation des calculs et soumission de papier.

- Intégration des modèles IA dans le robot TIAGO++, soumission d'article. Rédaction du manuscrit de thèse, présentation des résultats, soutenance.

Production scientifique/technique attendue

Les travaux donneront lieu à des publications dans des conférences et journaux internationaux de premier rang. La thèse aboutira sur le développement de nouveaux services d'assistance robotique basés sur la voix.

Présentation du Laboratoire

CESI LINEACT (UR 7527), Laboratoire d'Innovation Numérique pour les Entreprises et les Apprentissages au service de la Compétitivité des Territoires, anticipe et accompagne les mutations technologiques des secteurs et des services liés à l'industrie et au BTP. La proximité historique de CESI avec les entreprises est un élément déterminant pour nos activités de recherche, et a conduit à concentrer les efforts sur une recherche appliquée proche de l'entreprise et en partenariat avec elles. Une approche centrée sur l'humain et couplée à l'utilisation des technologies, ainsi que le maillage territorial et les liens avec la formation, ont…

Description du profil :

Votre Recrutement

Votre candidature devra comporter :

- un Curriculum-Vitae détaillé. En cas de rupture dans le cursus universitaire, merci de fournir une explication ;

- une lettre de motivation explicitant ses motivations à poursuivre une thèse de doctorat ;

- les résultats post-bac et les bulletins de notes correspondants ;

- les éventuelles lettres de recommandation ;

- toute autre pièce que vous jugerez utile.

Les candidatures seront traitées selon leur ordre d'arrivée, aussi cette offre de thèse expirera dès lors qu'un candidat aura été sélectionné.

Compétences

Compétences scientifiques et techniques dans un ou plusieurs de ces domaines :

- Solide compétence mathématique surtout en optimisation convexe et non-convexe, matrice, probabilité.

- Maîtrise des principales techniques d'IA. Une expérience avec Pytorch ou tensorflow serait appréciable.

- Solide niveau en programmation et réseaux.

- Appétence pour le calcul haute performance.

- Intérêt en traitement d'antennes (par exemple estimation DoA, formation de voies).

Compétences linguistiques et relationnelles :

- Bon niveau en anglais à l'écrit et à l'oral.

- Etre autonome, avoir un esprit d'initiative et de curiosité.

- Savoir travailler en équipe et avoir un bon relationnel.

- Etre rigoureux

Les modalités du contrat

- CDD 36 mois

- 6 semaines de congés payés (au prorata du temps travaillé)

- 14 RTT (au prorata du temps travaillé)

- Tickets restaurant

- Mutuelle entreprise

- Prime participation/intéressement

- Ordinateur portable

Références

[1] Ahmed-Rafik-El Mehdi Baahmed, Jean-François Dollinger, Mohamed-El-Amine Brahmia et Mourad Zghal. "Hyperparameter Impact on Computational Efficiency

in Federated Edge Learning". In : 2024 International Wireless Communications and Mobile Computing (IWCMC). 2024, p. 0849-0854.

[2] Chenghao Hu et Baochun Li. "When the Edge Meets Transformers: Distributed Inference with Transformer Models". In : 2024 IEEE 44th International Conference on Distributed Computing Systems (ICDCS). IEEE. 2024, p. 82-92.

[3] LI Jie, ZHAO Jing, DING Yuehua, LI Yifang et CHEN Fangjiong. "An Improved co-Prime Parallel Array With Conjugate Augmentation for 2-D DOA Estimation". In : IEEE Sensors Journal 21.20 (2021), p. 23400-23411.

[4] Leila Ben Letaifa et Jean-Luc Rouas. "Towards Green AI: Assessing the Robust ness of Conformer and Transformer Models under Compression". In : Proceedings of the 32nd European Signal Processing Conference EUSIPCO 2024. IEEE, 2024, p. 336-340.

[5] Mouaad Oujabour, Leila Ben Letaifa, Jean-François Dollinger et Jean-Luc Rouas. "Adaptive Compression of Supervised and Self-Supervised Models for Green

Speech Recognition". In : IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP. 2025.

[6] Jinchuan Tian, Jiatong Shi, William Chen, Siddhant Arora, Yoshiki Masuyama, Takashi Maekaku, Yihan Wu, Junyi Peng, Shikhar Bharadwaj, Yiwen Zhao,

Samuele Cornell, Yifan Peng, Xiang Yue, Chao-Han Huck Yang, Graham Neubig et Shinji Watanabe. ESPnet-SpeechLM: An Open Speech Language Model Toolkit.

2025.

[7] DING Yuehua, DOLLINGER Jean-François, VAUCHEY Vincent et ZGHAL Mourad. "Double-Layer Soft Data Fusion for Indoor Robot WiFi-Visual Localiza tion". In : IEEE Sensors Journal, early access (2025).

[8] DING Yuehua, DOLLINGER Jean-François, VAUCHEY Vincent et ZGHAL Mourad. "WiFi-Visual data fusion for indoor robot localization". In : 2024 IEEE RAS 23rd International Conference on Humanoid Robots (Humanoids), Nancy, France. 2024, p. 135-140

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.