Stage/pré-thèse: ia / datascience / fingerprinting de données h/f

Labège

Stage

Berger Levrault

Ingénieur de recherche

Publiée le 24 février

Description de l'offre

BERGER-LEVRAULT est éditeur de logiciels international, historiquement éditeur-imprimeur, fondé il y a plus de 400 ans pour accompagner les professionnels publics, privés et les usagers dans leur vie quotidienne.

Le groupe étend son expertise métier dans les domaines des ressources humaines, de la gestion financière, de la gestion de la maintenance des infrastructures, ainsi que des solutions spécifiques destinées aux citoyens, aux établissements scolaires et de santé. BERGER-LEVRAULT c'est 1700 collaborateurs réunis autour de plusieurs marques (Carl-Software, Aytos, Segilog, LibreAir, Sigems, Infosilem...) à l'international (France, Canada, Espagne, Maroc, Italie, Belgique) avec plus 51 000 clients et 25% de son chiffre d'affaires investi dans la Recherche & Développement.

Si vous souhaitez intégrer une entreprise pérenne et en pleine croissance, avec une culture fondée sur le renouvellement et des valeurs qui placent incontestablement l'humain au cœur de l'entreprise…

Alors rejoignez-nous et venez vivre l'odyssée Berger-Levrault !
Référence2019-311

Catégorie de l'offre
Standard
Description du posteIntitulé du poste
Stage/Pré-Thèse: IA / Datascience / Fingerprinting de données H/F
Contrat
STAGE
Durée du contrat
6 mois
Description de la mission

De nos jours, les applications complexes permettant l’extraction de connaissances et la fouille de données (data mining) utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l’absence de données précises et fiables, on peut prendre potentiellement de mauvaises décisions. Afin d’offrir une meilleure compréhension de nos données, il est indispensable de procéder à un nettoyage de celles qui seraient redondantes / « très similaires » en se basant sur leur représentation sémantique.

L’objectif principal de ce stage consiste à analyser les données qui sont stockées dans nos bases de données structurées afin de détecter des doublons / redondances. Par exemple, une double inscription pour une seule et même personne ou bien un doublon de personnes avec chacune une inscription différente. Afin d’y arriver, nous pensons à « attacher » aux données leurs sens sémantiques, leurs types, leurs contraintes, voir des empreintes digitales (fingerprinting) et des commentaires pour une meilleure interprétation et une bonne réutilisation ultérieure des données (sans doublons et de bonne qualité).

Le fingerprinting de données peut de plus avoir des applications considérables qui vont bien au-delà de la détection de doublons. Nous envisageons par exemple que ce type de technique permette de relier/mapper des données provenant de sources différentes pour élaborer automatiquement des croisements.

Vos activités principales seront les suivantes :

- Etude des différents algorithmes de déduplication existants et méthodes de sélection des attributs de dédoublonnage ;
- Choix des attributs de dédoublonnage pour une meilleure correction des données ;
- Proposition de stratégies de fusion des tuples (enregistrements) jugés très similaires dans nos bases de données ;
- Développement de modèles de comparaison des tuples pour le nettoyage et l’intégration de données propres. De préférence, des modèles basés sur un apprentissage automatique (machine learning) ;
- Evaluation des modèles proposés.

Vous intégrerez notre équipe de recherche et développement et profiterez des connaissances et expertises de nos ingénieurs de recherche, doctorants et jeunes docteurs. Vous travaillerez directement avec le Responsable R&D du pole et le doctorant en charge de ce sujet.

À la suite de ce stage, Berger-Levrault souhaite mettre en place une thèse CIFRE autour du même sujet.

Profil requis

Ce stage s’adresse à un(e) étudiant(e) en dernière année d’école d’Ingénieur ou équivalent universitaire (BAC+5), ayant une orientation en Intelligence Artificielle (IA) et/ou extraction et gestion des connaissances (EGC). La personne candidate doit posséder les qualifications suivantes :
- Connaissances sur les bases de données relationnelles et leur gestion (Par exemple, Oracle ou SQL server) ;
- Maîtrise des techniques d’apprentissage automatique (machine learning) et de fouille de données (data mining) ;
- Bon niveau de programmation (Python et/ou JAVA, SQL) ;
- Des connaissances en traitement automatique du langage naturel (TAL) sont appréciées ;
- Capacités à proposer des solutions innovantes ;
- Valorisation des données contenues dans les bases de données ;
- Autonome, curieux(se) avec des capacités d’analyse et de synthèse.

- Pourquoi faire un stage chez Berger-Levrault ?
- Parce que nous sommes une entreprise en pleine croissance et ça dure depuis plus de 400 ans… (Nous mettons tout en œuvre pour y arriver ) ;
- Parce que nous sommes une entreprise ouverte vers l’international mais nous n’en restons pas moins une entreprise à taille humaine ;
- Parce que nous impliquons nos stagiaires dans des projets qui ont du sens
- Parce que nous nous sommes fiers de devenir les acteurs du changement et de la transformation numérique des citoyens.

Localisation du posteLocalisation du poste
France, Occitanie, Haute Garonne (31)
Lieu

Labège

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.