Total recrute un Stagiaire en apprentissage par renforcement pour des signaux retardés (F/H), PALAISEAU-NANO INNOV(FRA), France

Description du poste

Vos missions:

Construction d’un état de l’art complet des algorithmes d’apprentissage par renforcement pour des séries temporelles retardées
Implémentation de l’état de l’art sous forme d’un package codé en langage Python
Test des algorithmes implémentés sur l’environnement de simulation d’une supply chain
Rédaction d’un mémoire de recherche avec résultats détaillés
Présentation technique et scientifique lors de séminaire interne.

Compétences développées au cours de la mission:

Analyse bibliographique de l’état de l’art
Implémentation efficace d’algorithmes d’apprentissage par renforcement
Rédaction et présentation scientifique,

Contexte et Environnement

Le groupe Total est un acteur majeur de l’énergie, qui produit et commercialise des carburants, du gaz naturel et de l’électricité bas carbone.
L’équipe R&D de Total@Saclay s’intéresse aux problématiques du numérique qui s’applique à l’optimisation des processus industriels de Total. Parmi les algorithmes majeures d’optimisation on retrouve l’apprentissage par renforcement.
Le stage a pour but d’explorer le domaine de l’apprentissage par renforcement pour une série temporelle retardée (reinforcement learning with delayed rewards). Il s’agit actuellement d’un grand challenge que la communauté n’a pas encore réussi à résoudre.
L’apprentissage par renforcement s’est imposé ces dernières années comme une thématique incontournable de la recherche en intelligence artificielle. Tout comme d’autres méthodes d’apprentissage automatique, les techniques d’apprentissage par renforcement utilisées ne datent pas d’hier (l’algorithme de Q-learning a été introduit en 1989), mais se sont révélées aux yeux du monde grâce à des avancées emblématiques (DeepMind a atteint en 2014 des performances surhumaines à la quasi-totalité des jeux Atari, avant de battre une légende du jeu de Go deux ans plus tard). Ces avancées n’ont été réalisées qu’en ayant supposé que la fonction de récompense est observée instantanément par l’agent apprenant. Malheureusement, pour des use-cases réalistes et industriels, les algorithmes actuels doivent être adaptés pour gérer un environnement dit retardé. D’où l’objectif de ce stage : développer des algorithmes de RL pour des séries temporelles retardées et de les éprouver sur des use cases industriels de Total. Le use case le plus adapté pour ce challenge est la gestion de l’inventaire où les stocks sont reçus avec un délai.

Livrables: mémoire de recherche (Master 2), code source d’algorithmes RL développés au cours du stage.

Profil recherché

Vous préparez un BAC+5 en Mathématiques ou Informatique et êtes à la recherche d’un stage de fin d’études de 6 mois à compter d’avril 2021.

Connaissances techniques:

Vous justifiez idéalement d’une première expérience ou d’un premier projet académique en apprentissage par renforcement
Python (pytorch, tensorflow, numpy, …)
Statistiques & probabilités

Aptitudes requises:

Implémentation des algorithmes d’apprentissage par renforcement
Théorie de la statistique, théorie des probabilités
Rigueur mathématique

Réfèrence

37482BR

Métier

R&D Analytique

Région, département, localité

91 – Essonne

Type d’emploi

Stage conventionné

Durée du contrat

Unité de temps

Mois

Niveau d’expérience requis

Moins de 3 ans

Branche

Holding

A propos de nous/Profil de l’entreprise

BETTER ENERGY NEEDS YOU

Donnez le meilleur de vous-même à l’énergie ! Rejoignez TOTAL : plus de 500 métiers différents dans 130 pays. Une entreprise responsable avec des standards de sécurité et d’éthique forts, des perspectives d’évolution de carrière variées, une culture de l’innovation et une mission partagée par les 100.000 collaborateurs du Groupe : rendre l’énergie meilleure jour après jour.

Apply here

Total recrute un Stagiaire en apprentissage par renforcement pour des signaux retardés (F/H), PALAISEAU-NANO INNOV(FRA), France