Mission
s :
Le stage sera séquencé selon les grandes étapes d'élaboration suivantes :
1 - Analyse d'un échantillon représentatif de rapports PDF (qualité variable) ;
2 - Mise en place une chaîne d'extraction semi-automatique du texte et des tableaux (PDFMiner ou équivalent) ;
3 - Transformation des données selon le modèle de données cible SYRACUSE
4 - Développement d'un pipeline ETL (Python ou équivalent) pour charger les données nettoyées dans le DWH.
5 - Contrôles de la qualité de l'extraction (gestion des doublons...).
En plus des scripts et du pipeline prototype, le stagiaire produira un rapport d'évaluation dans lequel il présentera les performances, identifiera les limites et proposera des pistes d'industrialisation. Profil recherché
Master 1 ou master 2 ou écoles d'ingénieurs en informatique avec option data/IA
Télétravail Occasionnel Diversité
La diversité est une des composantes de la politique RSE, RH et Qualité de Vie au Travail à lASNR.
Nous accordons la même considération à toutes les candidatures, sans discrimination, pour inclure tous les talents.
Quelles que soient les différences, nous souhaitons attirer, intégrer et fidéliser nos candidats et nos collaborateurs au sein dun environnement de travail inclusif.
L'ASNR conduit une politique active depuis de nombreuses années en faveur de l'égalité des chances au travail et l'emploi des personnes handicapées. Si vous êtes en situation de handicap, n'hésitez pas à nous faire part de vos éventuels besoins spécifiques afin que nous puissions les prendre en compte.
Localisation du poste Localisation du poste Europe, France, Ile-de-France, Hauts-de-Seine
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.