Contexte
Nous avons créé une application modulaire qui accompagne les entreprises dans la mise en conformité réglementaire. Elle permet de vérifier que des personnes ne figurent pas sur des listes de Personnes Politiquement Exposées ou de Gel des Avoirs, afin de valider leur éligibilité à souscrire à des contrats (banque, assurance, …).
Dans ce cadre, nous avons amorcé un POC d’analyse de documents par IA pour extraire et structurer des informations clés à partir de documents complexes (comme les bilans d’entreprises). L’objectif est d’automatiser la recherche d’informations pertinentes pour les contrôles réglementaires.
Missions
Le but du stage est de poursuivre le développement du POC en cours et de concevoir un module capable d’analyser des documents (PDF, images, …) et d’en extraire des données structurées, utilisables pour les contrôles.
Le module devra être capable de traiter des documents hétérogènes, d’identifier les informations clés et de s’intégrer dans l’architecture existante.
Attendu :
* Prise en main et analyse du POC existant
* Définition et mise en œuvre d’une méthode robuste d’extraction d’informations (NLP, modèles spécialisés, OCR si nécessaire)
* Développement et optimisation du module pour des jeux de données réels
* Intégration et tests du module dans l’application
* Documentation et évaluation de la qualité des résultats
Environnement technique :
* Kotlin
* Python
* Outils d’OCR (Tesseract, AWS Textract, etc.) et NLP (spaCy, transformers, …)
* Mongo
* Angular
* API REST
Le télétravail chez 4SH est autorisé mais il doit être exceptionnel pendant le stage. En effet, nous pensons que le présentiel est indispensable pour te permettre de monter en compétences durant cette période et t’accompagner au mieux. Nous sommes cependant flexibles et comprenons que tu puisses avoir besoin d’en bénéficier de temps en temps.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.