Topic description
Contexte :
Les corpus scientifiques comme les corpus de débat public produisent désormais un effet paradoxal : l'information est abondante, mais la compréhension globale devient difficile. Des propositions importantes circulent sous de multiples formulations, se transforment au fil du temps, changent d'énonciateur et s'appuient sur des preuves parfois contradictoires. Les moteurs de recherche retrouvent des documents sans rendre visible cette dynamique ; les synthèses automatiques restent locales ; et les graphes de connaissances classiques supposent souvent des données déjà structurées.
De quoi s'agit-il, concrètement ?
Le but est de construire une « carte » navigable d'un domaine (ex. un champ scientifique ou médiatique) ou d'un débat : repérer les idées/propositions clés dans un grand ensemble de textes, regrouper les formulations qui disent essentiellement la même chose, relier chaque proposition à ses sources (et, si possible, aux preuves citées), puis suivre l'évolution de ces propositions dans le temps (apparitions, reformulations, controverses, consensus).
Objectifs scientifiques :
Développer et évaluer de nouveaux algorithmes pour transformer des « text-lakes » massifs et non structurés en « knowledge graphs cohérents », auditables et extensibles. La thèse étudiera en particulier des stratégies de désambiguïsation/canonisation (détecter quand deux formulations renvoient à la même proposition), sous contrainte de coût (approches frugales), et la manière dont une ontologie flexible peut permettre (i) une représentation plus optimale malgré (ii) une réduction de la dimensionalité et de (iii) guider la construction du graphe (idées, acteurs, sources, preuves, relations temporelles).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Context:
Scientific corpora as well as public-debate corpora now produce a paradoxical effect: information is abundant, but gaining an overall understanding is increasingly difficult. Important statements circulate under multiple formulations, evolve over time, change speaker, and rely on evidence that can be contradictory. Search engines retrieve documents without making this dynamic visible; automatic summaries remain local; and traditional knowledge graphs often assume data that is already structured.
What does it mean, concretely?
The goal is to build a navigable 'map' of a domain (e.g., a scientific field or a media corpus) or a debate: identify key ideas/claims in a large collection of texts, group formulations that essentially express the same claim, link each claim to its sources (and, when possible, to the cited evidence), and track how these claims evolve over time (emergence, rephrasing, controversy, consensus).
Scientific objective;
Develop and evaluate new algorithms to transform massive, unstructured text-lakes into coherent, auditable, and extensible knowledge graphs. The thesis will focus in particular on disambiguation/canonicalization strategies (detecting when two formulations refer to the same claim) under cost constraints (frugal approaches), and on how a flexible ontology can (i) enable better representations while (ii) reducing dimensionality and (iii) guiding graph construction (ideas, actors, sources, evidence, temporal relations).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
WEB :
Funding category
Public funding alone (i.e. government, region, European, international organization research grant)
Funding further details
Concours pour un contrat doctoral
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.