Présentation de la mission
Contribuer à l'exploration des données, à l'annotation dans Label Studio, au calcul des métriques d'accord inter-annotateurs (Cohen's κ)
Exemple de tâche :
* Annoter les données dans Label Studio (en binôme avec l'expert ESS)
* Proposer et calculer les score d'accord inter-annotateurs
* Logger les scores d'accord dans dans base de données
* Contribuer à l'exploration et à l'analyse des sources de données
* Préparer les matériaux pour le datathon (données, documentation, tutoriels)
* Intégrer les contributions du datathon dans la base après l'événement
* Réaliser les tests exploratoires pour la méthodologie 94.99Z (avec l'architecte)
Compétences attendues :
* Python (pandas, scikit-learn)
* Rigueur analytique, sens du détail
* Capacité à travailler selon des protocoles documentés
* Intérêt pour l'ESS et les données ouvertes
* Connaissances ou Expérience en annotation de données ou en NLP
Exemple des Livrables
* Annotations Label Studio
* Score Cohen's κ documenté
* Kit participant datathon
* Base enrichie post-datathon
La reproductibilité est non négociable : chaque entrée de la base doit avoir une justification vérifiable. Adhésion aux 5 principes OBSESS, avec un accent particulier sur la reproductibilité et la séparation des responsabilités (la méthodologie doit pouvoir être appliquée indépendamment du pipeline technique).
Précisions
Social Good Accelerator (SOGA) porte le projet d’Observatoire de l'ESS Numérique. Le projet, débuté en septembre 2025, a pour objectif une application qui mettra à disposition un référencement national des ESS numériques.
L’Observatoire de l’ESS Numérique vise à produire la première cartographie structurée, empirique et continue des organisations engagées dans la transition numérique de l’économie sociale en France et en Belgique.
Le projet combine analyse qualitative, données ouvertes, une plateforme web interactive et une médiation grand public.
Objectifs stratégiques :
* Produire une vision consolidée, fiable et réutilisable de l’écosystème ESS numérique.
* Soutenir l’élaboration de politiques publiques fondées sur la donnée.
* Renforcer les capacités des réseaux, opérateurs et financeurs publics/privés.
* Ouvrir un espace européen de connaissances et de dialogue via un média public mensuel.
Dans ce projet la “brique data” est fondamentale (Phase C1) : Il s’agit d’une pipeline de données qui récupère les données publiques, les agrège, les filtre, les fait valider par des expert et enfin les mets à disposition.
Cette phase C1 du projet a pour objectif de fournir pour Juin 2026 une pipeline de données automatique et autonome qui permettra de l’alimenter une base de données humainement vérifiable.
Le pipeline OBSESSNUM suit une logique de séparation des responsabilités en 5 couches :
* Data Layer : ingestion brute des sources publiques (SIRENE, INPI, ESS France, SCOP/SCIC, Mednum, France Tiers-Lieux,…)
* Change Capture : détection des nouveautés/modifications/suppressions par hashage SHA256, sortie Parquet (new/updated/deleted)
* Aggregation & Filtre métier : Filtre technique et agrégation pour constituer un dataset unique
* Enrichissement de données : Pipeline d’enrichissement
* Module d’annotation des données
* Stockage : SQLite pour les intermédiaires de pipeline, Parquet pour la sortie API
Un outil d’annotation par les expert·es ESS est porté par Label Studio CE (self-hosted sur Debian + Docker + Nginx), avec un overlap de 2 annotateurs et un calcul d'accord Cohen's κ externe.
Toutes les décisions techniques sont documentées dans un ADR (Architecture Decision Records), et suivent les 5 principes : Simplicité, Reproductibilité, Open By Default, Séparation des responsabilités, Interopérabilité.
Le(s) bénévole(s) auront un accès au github de l’organisation SOGA, les différentes tâches seront définies dans des issues. Chaque bénévole pourra prendre une issue disponible en fonction de ces disponibilités et compétences. Nous organiserons une réunion d’onboarding et nous proposerons des réunions d’échanges régulières.
Aujourd’hui nous cherchons du soutien pour mener à bien cette phase “Brique de données”. Nous avons détecté 3 types de profils qui seront d’une grande aide :
* Data Engineer : Pour industrialiser les traitement de données
* Data Scientist : Pour proposer des méthodes d’enrichissements
* DevOps : Pour mettre en place une infrastructure simple et rigoureuse.
Le tout sans créer de dettes techniques ni de complexité outre mesure, nous avons pour objectif de créer une solution robuste.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.