Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Reconnaissance et appariement d'entités (ner/el) robustes à partir de sorties ocr/htr, avec humain dans la boucle. // robust and end-to-end ner/el over ocr/htr with human-in-the-loop

Tours
Université de Tours
Publiée le 19 avril
Description de l'offre

Topic description

Les imprimés et manuscrits de l'époque moderne présentent une orthographe instable, des mises en page complexes (telles que les paratextes et les marginalia), ainsi que du bruit issu des processus de reconnaissance, autant de facteurs qui affectent les performances des tâches de traitement automatique des langues (TAL) en aval, comme la reconnaissance d'entités nommées (NER) et la liaison d'entités (EL).
Surmonter ces difficultés nécessite des techniques de modélisation et de prétraitement spécialisées (telles que la gestion des variations orthographiques historiques et l'entraînement sur des corpus historiques) afin d'adapter les outils de TAL aux textes de la première modernité.
Cette thèse de doctorat se concentre sur la définition d'approches pour la reconnaissance d'entités nommées (NER) et la liaison d'entités (EL) robustes pour des sources de l'époque moderne traitées par OCR/HTR, en ciblant plus particulièrement des corpus français issus des Bibliothèques Virtuelles Humanistes (BVH, CESR–Tours), avec des études pilotes pour le latin, le grec et l'italien.
Deux approches complémentaires seront explorées :
- une chaîne de traitement robuste partant de sorties manuelles, OCR ou HTR, qui applique une normalisation non destructive et en couches, fondée sur des règles, des gazetteers et des modèles neuronaux de NER/EL ;
- un modèle conjoint de bout en bout qui infère simultanément la transcription et les entités directement à partir des images de pages.

Les résultats permettront de soutenir des réseaux prosopographiques, avec des entités liées à des bases de connaissances telles que Wikidata, GeoNames et le World Historical Gazetteer (WHG).
Une curation human‑in‑the‑loop s'appuiera sur Arkindex, INCEpTION et Recogito.
Les livrables incluront des chaînes de traitement reproductibles, un jeu de données de référence pilote (CoNLL + TEI avec identifiants de bases de connaissances), des modèles entraînés ainsi qu'une interface de démonstration.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Early-modern prints and manuscripts exhibit inconsistent spelling, complex layouts
(such as paratexts and marginalia), and noise in recognition, all of which
affect the performance of downstream natural language processing (NLP) tasks
like named entity recognition (NER) and entity linking (EL).
Overcoming these challenges requires specialized modeling and preprocessing
techniques (such as handling historical spelling variations and training on historical
corpora) to adapt NLP tools for early-modern texts.
This PhD focuses on reliable named-entity recognition (NER) and entity linking
(EL) for early-modern sources processed through OCR/HTR, specifically targeting
French materials from the Bibliothèques Virtuelles Humanistes
(BVH, CESR–Tours), with pilots for Latin, Greek, and Italian.
Two complementary approaches will be explored:
1. a robust pipeline starting from manual, OCR, or HTR outputs that apply
non-destructive, layered normalization, rules, gazetteers, and neural NER/EL;
2. an end-to-end joint model that infers transcription and entities directly from
page images.
Outputs will support prosopographical networks, with entities linked to knowledge
bases like Wikidata, GeoNames, and theWorld Historical Gazetteer (WHG).
Human-in-the-loop curation will use Arkindex, INCEpTION, and Recogito. Deliverables
include reproducible pipelines, a pilot gold dataset (CoNLL + TEI
with KB IDs), trained models, and a demo UI.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Funding further details

Financement d'un établissement public Français

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Tours
Emploi Indre-et-Loire
Emploi Centre
Intérim Tours
Intérim Indre-et-Loire
Intérim Centre
Accueil > Emploi > Reconnaissance et appariement d'entités (NER/EL) robustes à partir de sorties OCR/HTR, avec humain dans la boucle. // Robust and End-to-End NER/EL over OCR/HTR with Human-in-the-Loop

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2026 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder