Description
Localisation : Grenoble ou Paris
Type de contrat : Stage de 6 mois
Date de démarrage : Février - Mars
L'offre complète est disponible ici :
En tant que stagiaire data vous contribuerez activement à l’industrialisation d’un pipeline ETL (Extraction - Transform - Load) dédié à l’intégration de données de recherche publiques (omiques et cliniques), disponibles sur des entrepôts tels que GEO, GDC, etc.
L’objectif du stage est de transformer un ensemble de scripts exploratoires en une solution générique, robuste et évolutive, capable de gérer des volumes de données croissants et de s’adapter à de nouvelles sources et formats. Selon l’avancement et les intérêts du/de la stagiaire, une ouverture du stage pourra consister à se concentrer sur la partie “Extract” afin d’automatiser l’acquisition des données depuis de nouvelles sources.
Responsabilités
1. Industrialiser les scripts existants : packaging, modularisation
2. Mettre en place une gestion du versioning des scripts et des données
3. Concevoir une architecture scalable pour anticiper l’augmentation du volume et de la diversité des données
4. Implémenter des formats de sortie compatibles avec nos outils internes et automatiser le chargement (”Load”) dans ces outils
5. Mettre en place des tests
6. Ouverture possible : requêtage et extraction de données depuis différentes sources (bases, APIs, fichiers)
Quelle sera votre place dans l’équipe ?
Au sein de notre équipe Data & Analytics, qui fonctionne en petit comité, vous bénéficierez d'une grande autonomie. Vous collaborerez toutefois avec les autres membres de l'équipe qui continueront à faire évoluer le pipeline.
Profile
7. En dernière année d’une formation d’ingénieure généraliste, informatique ou biotechnologique avec une spécialisation en data, ou d’un master en data management
8. Bonnes bases en Python
9. Connaissances en ETL / pipelines de données
10. Compréhension des modèles de données et des formats standards (CSV, JSON, TSV, etc.)
11. Notions de contrôle qualité et de nettoyage de données
12. Connaissances en Git, Gitlab
13. Intérêt prononcé pour les données biomédicales et la recherche
14. Autonomie, organisation et curiosité technique
15. Esprit d’équipe et capacité à documenter et partager ses travaux
Starting date
-02-02
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.