Reconnaissance et appariement d'entités (ner/el) robustes à partir de sorties ocr/htr, avec humain dans la boucle. // robust and end-to-end ner/el over ocr/htr with human-in-the-loop

Tours

Université de Tours

Publiée le 19 avril

Description de l'offre

Topic description

Les imprimés et manuscrits de l'époque moderne présentent une orthographe instable, des mises en page complexes (telles que les paratextes et les marginalia), ainsi que du bruit issu des processus de reconnaissance, autant de facteurs qui affectent les performances des tâches de traitement automatique des langues (TAL) en aval, comme la reconnaissance d'entités nommées (NER) et la liaison d'entités (EL).
Surmonter ces difficultés nécessite des techniques de modélisation et de prétraitement spécialisées (telles que la gestion des variations orthographiques historiques et l'entraînement sur des corpus historiques) afin d'adapter les outils de TAL aux textes de la première modernité.
Cette thèse de doctorat se concentre sur la définition d'approches pour la reconnaissance d'entités nommées (NER) et la liaison d'entités (EL) robustes pour des sources de l'époque moderne traitées par OCR/HTR, en ciblant plus particulièrement des corpus français issus des Bibliothèques Virtuelles Humanistes (BVH, CESR–Tours), avec des études pilotes pour le latin, le grec et l'italien.
Deux approches complémentaires seront explorées :
- une chaîne de traitement robuste partant de sorties manuelles, OCR ou HTR, qui applique une normalisation non destructive et en couches, fondée sur des règles, des gazetteers et des modèles neuronaux de NER/EL ;
- un modèle conjoint de bout en bout qui infère simultanément la transcription et les entités directement à partir des images de pages.

Les résultats permettront de soutenir des réseaux prosopographiques, avec des entités liées à des bases de connaissances telles que Wikidata, GeoNames et le World Historical Gazetteer (WHG).
Une curation human‑in‑the‑loop s'appuiera sur Arkindex, INCEpTION et Recogito.
Les livrables incluront des chaînes de traitement reproductibles, un jeu de données de référence pilote (CoNLL + TEI avec identifiants de bases de connaissances), des modèles entraînés ainsi qu'une interface de démonstration.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Early-modern prints and manuscripts exhibit inconsistent spelling, complex layouts
(such as paratexts and marginalia), and noise in recognition, all of which
affect the performance of downstream natural language processing (NLP) tasks
like named entity recognition (NER) and entity linking (EL).
Overcoming these challenges requires specialized modeling and preprocessing
techniques (such as handling historical spelling variations and training on historical
corpora) to adapt NLP tools for early-modern texts.
This PhD focuses on reliable named-entity recognition (NER) and entity linking
(EL) for early-modern sources processed through OCR/HTR, specifically targeting
French materials from the Bibliothèques Virtuelles Humanistes
(BVH, CESR–Tours), with pilots for Latin, Greek, and Italian.
Two complementary approaches will be explored:
1. a robust pipeline starting from manual, OCR, or HTR outputs that apply
non-destructive, layered normalization, rules, gazetteers, and neural NER/EL;
2. an end-to-end joint model that infers transcription and entities directly from
page images.
Outputs will support prosopographical networks, with entities linked to knowledge
bases like Wikidata, GeoNames, and theWorld Historical Gazetteer (WHG).
Human-in-the-loop curation will use Arkindex, INCEpTION, and Recogito. Deliverables
include reproducible pipelines, a pilot gold dataset (CoNLL + TEI
with KB IDs), trained models, and a demo UI.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Funding further details

Financement d'un établissement public Français

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.