Avis de recrutement : Cirad recherche un(e) Ingénieur(e) en science des données, France.

 

 

 

 

Description du poste / de la mission

Au sein de l’UMR AMAP (plus particulièrement de l’équipe en charge de la plateforme Pl@ntNet), en étroite collaboration avec l’EPI Inria Zenith basée au LIRMM, et les membres du consortium du projet européen MAMBO, la personne recrutée sera en charge de l’expérimentation et du développement de nouvelles approches pour la caractérisation automatisée de communautés végétales à partir d’analyses visuelles. Ces travaux s’inscrivent dans le cadre des recherches menées à la frontière entre sciences informatiques et sciences du végétal, menées depuis plus d’une vingtaine d’années sein du laboratoire.

L’unité recherche un ingénieur en science des données avec de fortes compétences en en Deep Learning (librairie d’apprentissage profond Pytorch) et en programmation Python (Programmation Unix/Linux).

La personne recrutée sera en charge du développement, de l’évaluation et de la mise à disposition de modèles profonds pour l’analyse d’images de communautés végétales. Ce travail vise à caractériser de manière automatique la biodiversité végétale à très large échelle spatiale et taxonomique (au niveau européen) à travers l’élaboration de nouvelles métriques. Il sera développé en partenariat avec l’Inria d’une part, avec lequel l’unité collabore depuis plus d’une douzaine d’années, ainsi qu’avec les partenaires du projet MAMBO (plus d’une dizaine en tout, dont l’univ. d’Aarhus (DK), l’Univ. d’Amsterdam (NL), Naturalis (NL), le CEH (UK)) spécialisés dans le développement de nouvelles méthodes pour la caractérisation de la biodiversité à partir de données multimédias.

La personne recrutée sera en charge d’intégrer dans une première version des outils apportés par les différents membres du projet et de les faire évoluer afin de répondre aux nouveaux scénarios d’usages définis avec les partenaires.

Les principales activités de la personne recrutée porteront sur :
. l’analyse des besoins des partenaires et des usagers finaux,
. la définition de protocoles expérimentaux visant la comparaison de différents modèles de deep learning pour répondre aux besoins,
. la structuration de vastes corpus de données visuelles, fournies par les partenaires ou disponibles au travers de bases de données internationales. Cela inclut toutes les étapes de la chaine de traitement suivante : vérification de la cohérence, nettoyage, pré-traitement des données en fonction de leur typologie, normalisation, annotation automatique, importation,
. L’entrainement et l’évaluation de modèles de classification automatisée sur des clusters régionaux (MesoLR) et nationaux (Jean Zay),
. la diffusion des résultats obtenus sous forme d’articles, de présentations, de posters, etc.).
. la rédaction de la documentation pour le transfert et le réentrainement des modèles développés.

Profil souhaité

Compétences techniques et niveaux requis :

. Expertise en machine learning (plus particulièrement Deep learning), et bonnes connaissances du framework Pytorch,
. Expertise en gestion / exploitation large volumes de données multimédias,
. Expérience de la programmation scripts sous serveurs Linux (Bash, Python)
. Expérience dans l’utilisation de systèmes de gestion de versions de code (GitLab, GitHub)
. Connaissance en développement Web (HTML / CSS / JavaScript),

Langues : Français / Anglais

. Compétences relationnelles : Autonomie, curiosité intellectuelle, capacité à travailler de manière collaborative et interdisciplinaire, avec des partenaires de cultures étrangères.

Contraintes du poste

Travail sur écran + 4 h

Date limite : 27/01/2023

Postulez ici