Topic description
Cette thèse s'inscrit dans le cadre du projet ANR Chica-AI (-), qui vise à concevoir un environnement informatique capable d'analyser automatiquement les résumés oraux d'enfants pour évaluer leur compréhension d'un texte à la suite d'une tâche de lecture. L'étude PISA montre, en effet, que 20 % des élèves français de 15 ans présentent des difficultés sévères en lecture, et que les écarts socio-économiques accentuent les disparités de niveau. Le projet a pour ambition de réduire les difficultés de lecture des enfants du cycle 3 en proposant des méthodes basées sur l'apprentissage artificiel, permettant un accompagnement personnalisé pour l'élève et un retour informatif pour les enseignants.
La compréhension de la lecture est un enjeu fondamental, et elle peut être entrainée grâce à des activités telles que le résumé de texte. Pour analyser automatiquement la compréhension du texte par l'enfant, il s'agit d'évaluer sa production orale du résumé. Pour cela, il faut extraire un ensemble d'informations sémantiques du résumé mais aussi fournir un ensemble d'indicateurs pertinents et différenciés, tant pour les élèves que pour les enseignants.
Pour atteindre ces objectifs, plusieurs modules seront développés : un module de reconnaissance de la parole, adapté aux voix d'enfants ; un module de compréhension de la parole permettant d'extraire des informations sémantiques ; et un module de mise en correspondance de ces informations sémantiques avec une grille d'évaluation fondée sur des critères psycho-cognitifs, pour juger de la qualité des résumés produits.
Parmi les différentes tâches ciblées par le projet, les objectifs de ce travail de thèse seront d'extraire l'ensemble des informations sémantiques nécessaires à l'analyse du résumé de l'enfant. Le doctorant devra donc mettre en oeuvre, analyser et adapter des systèmes basés sur les réseaux de neurones afin d'une part de cerner les informations pertinentes et d'autre part de les adapter aux besoins des experts en pédagogie et psycho-cognition. Pour cela, il devra participer aux réflexions sur l'élaboration du corpus, notamment la partie annotation. Il devra également réfléchir à la pertinence des informations sémantiques extraites et leur transfert vers l'analyse psycho-cognitive. Ces différents objectifs évoquent des travaux à la fois sur les différentes archichectures neuronales à mettre en oeuvre mais aussi sur le traitement du langage naturel chez l'enfant. Notamment, un des principaux verrous scientifiques sera l'adaptation des systèmes au corpus écologique, c'est à dire récolté dans un milieu naturel (la classe de l'enfant),réel et non contrôlé.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
This thesis is part of the ANR Chica-AI project (–), which aims to design a computational environment capable of automatically analyzing children's oral summaries to assess their text comprehension following a reading task. The PISA study highlights that 20% of French 15-year-old students face severe reading difficulties, with socio-economic disparities exacerbating skill gaps. The project aims to reduce reading challenges for Grade 3 children by developing artificial intelligence-based methods to provide personalized support for students and informative feedback for teachers.
Reading comprehension is a fundamental skill, which can be trained through activities such as text summarization. To automatically analyze a child's comprehension, their oral summary can be evaluated. This requires extracting semantic information from the summary and generating relevant, differentiated indicators for both students and teachers.
To achieve these goals, several modules will be developed: a speech recognition module tailored to children's voices; a speech understanding module to extract semantic information; a matching module to align this semantic information with an assessment grid based on psycho-cognitive criteria, evaluating the quality of the summaries.
Among the project's objectives, this PhD work will focus on extracting the semantic information necessary to analyze children's summaries. The PhD candidate will implement, analyze, and adapt neural network-based systems to identify relevant information and tailor it to the needs of pedagogy and psycho-cognition experts. This will involve contributing to corpus design (including annotation guidance) and evaluating the relevance of extracted semantic information for psycho-cognitive analysis.
The work encompasses both designing neural architectures and addressing challenges in processing children's natural language. A major scientific issue will be adapting systems to an ecological corpus—data collected in natural, real-world classroom environments rather than controlled settings.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
WEB :
Funding category
Funding further details
Contrat doctoral
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.