RESPONSABILITÉS :
Mission
Dans le cadre du projet ANR Pantagruel, l'Institut recrute un postdoc spécialisée en TAL (Traitement automatique des langues). Le cadre des travaux proposé est l'analyse de transcriptions de flux audiovisuels dans le cadre de l'évaluation de LLMs. Il s'agit donc de reprendre et adapter des tâches de NLP / SLU au contexte particulier de ces contenus. Les principales tâches sur lesquelles il/elle sera amené à se pencher sont à déterminer parmiles suivantes : segmentation sémantique, détection d'événements médiatiques, extraction de citations, désambiguïsation d'entités nommées, analyse de sentiments, catégorisation, résumé automatique, détection de propos haineux et RAG. Pour ces tâches, il est prévu de mener de bout en bout la création de corpus (train et eval) avec les équipes de l'INA, le développement du code et l'évaluation sur plusieurs modèles de fondation, dont ceux issu du projet Pantagruel. Un accès à notre cluster de calcul ainsi qu'à AdAstra est prévu.
Activités principales
1/ Organiser une veille scientifique et effectuer des travaux de recherche visant à améliorer l'état de l'art, notamment sur de gros corpus de données issus des collections de l'INA
2/ Concevoir, implémenter, tester, évaluer des outils technologiques innovants dans le cadre des usages existants ou pressentis de l'Institut, notamment ceux définis dans le projet Pantagruel
3/ Collaborer avec l'ensemble des acteurs internes (notamment la tribu IA et le Lab) et externes (partenaires scientifiques)
4/ Rédiger ou participer à la rédaction d'articles scientifiques et présenter ces articles dans des colloques, séminaire ou salons
5/ Participer à la stratégie de recherche et développement du service
6/ Participer à la rédaction des documents liés à l'activité (rapports d'activité, livrables des projets en particulier).
PROFIL RECHERCHÉ :
Qualifications, diplômes, expérience :
Justifier d'un doctorat en informatique, spécialité : traitement automatique des langues et/ou machine learning, ou parcours professionnel admis en équivalence.
Compétences :
- Expérience significative dans une ou plusieurs tâches nécessitant d'utiliser des stratégies d'apprentissage automatique appliquées au texte : sentence labeling, traduction automatique, classification de textes, POS tagging, segmentation de textes, résumé automatique, génération de texte, extraction d'entités nommées (NER), systèmes de question/réponses (QA), détection de concepts, apprentissage et adaptation de modèles de langue, modèles de plongement lexicaux
- Expérience significative en développement informatique, bonne autonomie : architecture logicielle, tests unitaires, design patterns, calcul distribué, profiling CPU et GPU, Linux, Docker
- Expérience dans la recherche académique et/ou industrielle;
- Expérience en publications scientifiques
- Expérience de projets collaboratifs
- Très bonne maîtrise de l'anglais écrit et parlé
- Bonne connaissance des méthodes d'analyse quantitative et compétences en statistiques
- L'implication dans des projets open-source serait un plus
- Une connaissance des domaines de l'audiovisuel et des médias, des Sciences Humaines et Sociales et des Humanités Numériques serait un plus
Aptitudes
- Esprit d'équipe
- Ouverture d'esprit, curiosité
- Sens de l'écoute
- Sens de la pédagogie
- Capacité rédactionnelles
- Esprit d'analyse et de synthèse
- Force de proposition
Experience: Débutant accepté
Qualification: Cadre
EPIC créé en 1975, l'INA est chargé de conserver, de valoriser et de transmettre le patrimoine audiovisuel français.
Les travaux menés au service de la Recherche visent à améliorer les approches numériques permettant d'extraire, d'indexer, de modéliser, de visualiser et de comprendre des connaissances depuis les fonds audiovisuels. Ces méthodes sont utilisées pour aider à la documentation des fonds et aux travaux transdisciplinaires pour une meilleure connaissance des médias.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.