Votre mission
Contexte :
Pour notre client, un acteur majeur du transport aérien, nous avons mis en oeuvre et industrialisé un algorithme de rapprochement de données complexes et volumineuses. Celui-ci s’appuie sur les techniques standards du « record linkage » telles que l’indexation par clés multiples, le « matching » déterministe, des algorithmes de calcul de similarité (Distance de Levenshtein, Jaro Winkler). Ce traitement de rapprochement s’appuie sur des technologies Big Data : Hadoop, Spark & Spark GraphX.
C’est dans ce contexte que l’étudiant(e) rejoindra l’équipe VISEO DATA & ANALYTICS afin de réaliser son stage de fin d’études.
Sujet de Stage :
Le périmètre du stage concerne les phases de comparaison et de classification sur laquelle nous souhaitons apporter des améliorations. Cette étape consiste actuellement à effectuer des comparaisons en se basant sur des règles essentiellement déterministes. Des tests ont été effectués pour compléter les règles existantes en utilisant une approche probabiliste. L’objectif de ce stage est d’approfondir cette approche et de l’implémenter dans le moteur existant.
Plusieurs tâches ont été identifiées :
- Améliorer l’algorithme de comparaison en introduisant des règles probabilistes.
- Améliorer le jeu de test et identifier les critères d’évaluation de l’algorithme.
- Identifier d’autres techniques de comparaison (machine learning, deep learning, etc)
Dans le cadre de son stage, l’étudiant(e) devra :
- Implémenter l’approche probabiliste et comparer les résultats obtenus avec l’algorithme existant.
- Proposer d’autres techniques et éventuellement évaluer celles qui semblent les plus pertinentes.
Prérequis techniques :
- Connaissances en Big Data : Hadoop, HDFS, Spark 2
- Un des langages suivants : Java (framework Spark), python.
- Autres : librairies de machine learning (spark ML, Scikit-learn, etc).
- Langues : Français, Anglais technique
Votre profil
Le stagiaire doit posséder de bonnes connaissances mathématique et informatique et être capable de les implémenter sur des données réelles. La connaissance des technologies Big Data est un plus.
Rigoureux(se), le/la stagiaire sera capable d’appliquer les connaissances acquises lors de sa formation.
Curieux(se), il/elle sera force de proposition pour soumettre différentes solutions et en mettre en oeuvre une ou plusieurs.
Une montée en compétences sur les technologies utilisées sera proposée si nécessaire.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.