rejoignez-nous !

Junior Data Scientist

Service :
Data
, lieu :
Paris 11e

Mission

Make.org est une civic-tech dont l’objectif est d'accélérer la mobilisation de la société civile pour résoudre des grands problèmes de société comme “lutter contre les violences faites aux femmes”, “donner une chance à chaque jeune” ou “rendre la culture accessible à tous”.

Pour atteindre cet objectif, Make.org développe une plateforme de consultation massive des citoyens où chacun peut proposer sa solution et voter sur celle des autres.

La mission principale de ce poste est de développer et d’améliorer les algorithmes permettant d’analyser et d’organiser les propositions citoyennes issues des consultations. La mission secondaire est de participer à l’analyse de l’ensemble des données collectées par la plateforme.

Principaux défis

Les algorithmes développés par l’équipe data de Make.org sont essentiellement des modèles de traitement de données textuelles (NLP), notamment :

  • Identification des propositions ne respectant pas la charte Make.org (spam / hate speech detection)
  • Catégorisation des propositions suivant les thèmes liés à chaque consultation (Text categorization)
  • Regroupement des propositions similaires en grandes idées (Text clustering)

Les principales difficultés viennent de la courte longueur des propositions (140 caractères), du renouvellement des thèmes avec chaque consultation (cold start), de la mobilisation par les annotateurs de leur connaissances pour procéder à l’analyse et au regroupement des propositions similaires (semantic knowledge).

Votre mission principale sera de suggérer et d’expérimenter des approches pour améliorer ces algorithmes sous la direction du Lead Data Scientist. Vous serez aussi responsable de la mise en production des approches les plus performantes.

L’équipe data est aussi en charge de la collecte et de l’analyse de toutes les données utilisateurs générées par la plateforme. Votre mission sera donc de développer les algorithmes alimentant les dashboards de visualisation utilisés en interne. Enfin vous accompagnerez l’équipe produit en fournissant des analyses ad-hoc pour comprendre le comportement des utilisateurs face aux innovations développées.

Profil recherché

Vous possédez un doctorat dans une discipline scientifique orientée data: informatique, mathématiques appliquées, linguistique, physique statistique, économétrie, data science.

Vous avez une bonne connaissance des techniques de base du NLP (stemming, pos tagging, tf-idf, text categorisation, text clustering) et des approches deep learning associées (word embeddings, LSTMs, CNNs). Vous aimez vous tenir à la pointe des avancées dans le domaine et les mettre en oeuvre dans des applications concrètes.

Vous aimez travailler en équipe dans un contexte agile. Vous aimez expérimenter pour trouver de nouvelles approches puis industrialiser vos projets pour les pérenniser.

Vous voulez rejoindre une équipe technique solide et une aventure start-up dédiée à un projet de transformation de la société.

Stack technique

La plateforme de consultation est développée en Scala et déployée par Docker. L’équipe technique travaille en intégration continue basée sur Gitlab. Une connaissance pratique de ces technologies est un plus.

Le code de la plateforme Make.org est open-source (https://gitlab.com/makeorg) et l’ouverture des projets interne comme la participation aux projets open-source mobilisés par la plateforme est encouragée.

Les analyses et les algorithmes de Data Science s’appuient sur une plateforme de collecte de données basée sur Kafka et analysable en Spark. Les algorithmes sont développés et entrainés en Python (numpy, scikit-learn, keras) puis déployés en Scala grâce à Mleap.

Modalités pratiques

Date de début : à partir de Janvier 2019

Type de contrat : CDI

Localisation : Paris 11e

Pour candidater:  recruitment@make.org

 Voir toutes les offres
Contact
Conditions d'utilisation
Politique de données
Mentions légales