Bénévolat - je développe des méthodes de filtrage de données pour l'économie sociale

Social Good Accelerator

Publiée le 26 mai

Description de l'offre

Présentation de la mission

Rejoignez-nous pour relever un défi technique au cœur du projet OBSESS : améliorer la détection automatique des organisations de l'économie sociale et solidaire (ESS) numérique.

Votre mission :

Vous travaillerez sur un enjeu méthodologique clé : le traitement du code NAF 94.99Z (~520 000 organisations non filtrables par NAF seul). À partir d'un dataset fourni par le data engineer et accompagné par une experte ESS, vous proposerez des méthodes de filtrage automatisées, que vous validerez en respectant les guidelines techniques et fonctionnelles du projet.

Exemples de tâches :

* Cadrer la méthode de filtrage pour le 94.99Z avec une experte ESS
* Explorer des approches NLP sur l'objet social INPI et les méta descriptions web
* Évaluer la faisabilité d'une classification assistée par LLM local (Ollama)
* Produire un document de règles de filtres et d'enrichissement reproductibles
* Tester et documenter les métriques de précision/rappel sur un échantillon annoté

Compétences recherchées :

* Python, NLP (classification de texte, embeddings, éventuellement fine-tuning léger)
* Expérience en filtrage semi-supervisé ou scoring de pertinence
* À l'aise avec un LLM local via Ollama (pas d'API externe — principe open by default)
* Capacité à dialoguer avec un expert métier pour traduire une typologie qualitative en règles opérationnelles

Principes du projet :

Toute complexité du modèle doit être justifiée par un gain réel. Une solution simple et auditable prime sur une solution sophistiquée. Adhésion aux 5 principes directeurs du projet OBSESS, avec un accent sur la simplicité et la reproductibilité.

Précisions

Social Good Accelerator (SOGA) porte le projet d’Observatoire de l'ESS Numérique. Le projet, débuté en septembre 2025, a pour objectif une application qui mettra à disposition un référencement national des ESS numériques.

L’Observatoire de l’ESS Numérique vise à produire la première cartographie structurée, empirique et continue des organisations engagées dans la transition numérique de l’économie sociale en France et en Belgique.

Le projet combine analyse qualitative, données ouvertes, une plateforme web interactive et une médiation grand public.

Objectifs stratégiques :

* Produire une vision consolidée, fiable et réutilisable de l’écosystème ESS numérique.
* Soutenir l’élaboration de politiques publiques fondées sur la donnée.
* Renforcer les capacités des réseaux, opérateurs et financeurs publics/privés.
* Ouvrir un espace européen de connaissances et de dialogue via un média public mensuel.

Dans ce projet la “brique data” est fondamentale (Phase C1) : Il s’agit d’une pipeline de données qui récupère les données publiques, les agrège, les filtre, les fait valider par des expert et enfin les mets à disposition.

Cette phase C1 du projet a pour objectif de fournir pour Juin 2026 une pipeline de données automatique et autonome qui permettra de l’alimenter une base de données humainement vérifiable.

Le pipeline OBSESSNUM suit une logique de séparation des responsabilités en 5 couches :

* Data Layer : ingestion brute des sources publiques (SIRENE, INPI, ESS France, SCOP/SCIC, Mednum, France Tiers-Lieux,…)
* Change Capture : détection des nouveautés/modifications/suppressions par hashage SHA256, sortie Parquet (new/updated/deleted)
* Aggregation & Filtre métier : Filtre technique et agrégation pour constituer un dataset unique
* Enrichissement de données : Pipeline d’enrichissement
* Module d’annotation des données
* Stockage : SQLite pour les intermédiaires de pipeline, Parquet pour la sortie API

Un outil d’annotation par les expert·es ESS est porté par Label Studio CE (self-hosted sur Debian + Docker + Nginx), avec un overlap de 2 annotateurs et un calcul d'accord Cohen's κ externe.

Toutes les décisions techniques sont documentées dans un ADR (Architecture Decision Records), et suivent les 5 principes : Simplicité, Reproductibilité, Open By Default, Séparation des responsabilités, Interopérabilité.

Le(s) bénévole(s) auront un accès au github de l’organisation SOGA, les différentes tâches seront définies dans des issues. Chaque bénévole pourra prendre une issue disponible en fonction de ces disponibilités et compétences. Nous organiserons une réunion d’onboarding et nous proposerons des réunions d’échanges régulières.

Aujourd’hui nous cherchons du soutien pour mener à bien cette phase “Brique de données”. Nous avons détecté 3 types de profils qui seront d’une grande aide :

* Data Engineer : Pour industrialiser les traitement de données
* Data Analyst : Pour explorer les données et les analyser
* Data Scientist : Pour proposer des méthodes d’enrichissements

Le tout sans créer de dettes techniques ni de complexité outre mesure, nous avons pour objectif de créer une solution robuste.

Postuler

Créer une alerte

Sauvegarder

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.