Référent des données (data engineer/data steward)

Paris 15ème

Health Data Hub

Publiée le 28 décembre

Description de l'offre

Le pôle des référents données de la Plateforme des Données de Santé joue un rôle clé pour garantir la qualité et l’exploitation des données de santé. Ses objectifs sont : Assurer la qualité du patrimoine de données en garantissant leur fiabilité, leur interopérabilité et leur conformité réglementaire avant mise à disposition. Mutualiser l’expertise technique pour orienter les développements de la plateforme et contribuer à des évolutions adaptées aux besoins des utilisateurs. Accompagner les porteurs de projets afin de faciliter l’appropriation de l’environnement technique et optimiser l’usage des données. Activités du poste : 1 Analyse et préparation des données Collaborer avec la Direction des Projets et Services aux Utilisateurs pour comprendre les objectifs des projets accompagnés : découverte fonctionnelle et technique des jeux de données, rédaction de la documentation associée et définition des règles de vérification automatisée. Manipuler de grands volumes de données (~To) en utilisant et enrichissant les ressources existantes (packages internes, scripts Python/PySpark) pour traiter des formats variés (tabulaires, texte libre, images, JSON) dans les délais impartis. Préparer et transformer les données (reformatage, jointure, transformation parquet) en garantissant leur intégrité et conformité. Cibler et extraire les données depuis les bases du catalogue du SNDS en assurant performance et standardisation et la qualité attendue. 2 Gestion des flux et conformité Vérifier l’anonymisation des imports/exports en lien avec les producteurs et les chercheurs. 3 Support et accompagnement utilisateur Fournir un support technique expert (exemples de code, bonnes pratiques) lors des permanences pour faciliter l’usage des données par les utilisateurs. 4 Amélioration continue et innovation Concevoir des solutions techniques ad-hoc pour des cas d’usage spécifiques, participer activement à la qualification (tests/recette) des nouvelles fonctionnalités de la plateforme. Contribuer à la documentation et aux bonnes pratiques de développement collaboratif (Git). Remonter les besoins pour faire évoluer les librairies et outils internes afin d’optimiser la qualité et la rapidité des opérations. Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique. Elles impliquent de relever des défis majeurs liés à la diversité des données (données médico-administratives, imagerie médicale, compte-rendus médicaux) et des efforts nécessaires pour les rendre exploitables. Cette liste est non exhaustive; le collaborateur pourra appuyer sa (ses) direction(s) dans d’autres missions. Le poste s’appuie sur une stack moderne orientée traitement de données à grande échelle et collaboration : Python comme langage de programmation principal (notebooks Jupyter, pandas, PySpark) pour le développement et la manipulation des données. Spark / PySpark pour le traitement de données volumineuses. R comme langage d’analyse statistique et de support aux études. SQL pour l’extraction, le ciblage et l’optimisation des requêtes. Outils de versioning et de collaboration (GitLab, Gitea). Infrastructure cloud dédiée au stockage et au requêtage de données volumineuses (Microsoft Azure). dbt pour l’exécution des pipelines de transformation des données (SNDS → OMOP). Suite Google pour la bureautique et la collaboration (Docs, Sheets, etc.).

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.