Job details
Job Type
Internship
Number of hires for this role
1
Full Job Description
Sujet de stage : "Text Line Extraction & Segmentation
MyScript, c’est une équipe de technophiles passionnés qui ont développé un moteur d'intelligence artificielle permettant la reconnaissance de l’écriture manuscrite. Grâce à cette technologie, nos utilisateurs peuvent créer et gérer du contenu numérique, et donc booster leur efficacité.
MyScript a pour objectif de reconnaître l'écriture manuscrite naturelle. Le sujet de ce stage est d'appliquer des méthodes de machine learning pour extraire des segments de lignes sémantiques dans un texte écrit à la main. L'écriture manuscrite naturelle correspond à la nature libre de l'écriture, où une personne écrit librement sur une feuille de papier sans aucune contrainte de direction ou d'orientation. Voici ci-dessous deux exemples d'écriture libre, où un auteur a annoté une page PDF [1] et une écriture manuscrite naturelle sur une page [2].
Habituellement, les lignes de texte sont extraites et segmentées sur la base de différentes heuristiques qui se sont assez limitées. Avec l'adaptation accrue des méthodes de deep learning, grâce aux avancées technologiques du matériel informatique et des techniques de deep learning [2] [3], nous proposons ce stage pour travailler sur ce domaine complexe mais passionnant de la segmentation des lignes de texte en utilisant du deep learning.
L'objectif de l'extraction des lignes de texte est de pouvoir obtenir des séquences de traits significatives. Ces séquences nous aident à utiliser des modèles de langage et des deep networks pour reconnaître le texte, prouvant qu'il est possible d'améliorer les performances de notre système de reconnaissance pour atteindre une précision très élevée, permettant ainsi d'utiliser l'écriture numérique dans la vie quotidienne.
Il existe plusieurs méthodes de deep learning qui sont capables de segmenter le texte. Dans ce stage, nous allons essayer de mettre en œuvre certaines méthodes existantes en fonction de votre intérêt pour repousser la frontière dans le domaine de la segmentation du texte.
Références
[1] Berat Kurar Barakat, Rafi Cohen, Irina Rabaev, Jihad El-Sana. VML-MOC: Segmenting a multiply oriented and curved handwritten text line dataset. 3rd International Workshop on Arabic and derived Script Analysis and Recognition (ASAR-ICDAR), 2019.
[2] Jun-Yu Ye, Yan-Ming Zhang, Qing Yang, Cheng-Lin Liu. Joint stroke classification and text line grouping in online handwritten documents with edge pooling attention networks, Pattern Recognition, Volume 114, 2021.
[3] Berat Barakat, Ahmad Droby, Majeed Kassis, Jihad El-Sana. Text Line Segmentation for Challenging Handwritten Document Images using Fully Convolutional Network. 18th International conference on Frontiers of Handwriting Recognition (ICFHR). 2018
Profil
- Tu es étudiant·e en dernière année d’école d’ingénieur ou M2.
- Tu as une connaissance du langage de programmation Python et d’une librairie d’apprentissage de réseaux de neurones (PyTorch, TensorFlow).
- Tu as une connaissance des méthodes d’apprentissage automatique et des réseaux de neurones.
- Tu maîtrises de l’anglais pour la lecture d’articles scientifiques et la présentation des travaux.
Type d'emploi : Stage
Salaire : 900,00€ par mois
Avantages :
- Participation au Transport
- Titre-restaurant
- Travail à Distance
Horaires :
- Du Lundi au Vendredi
- Repos le Week-end
- Travail en journée
Télétravail:
- Temporairement en raison du COVID-19
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.