Total recrute un Stagiaire en apprentissage par renforcement pour des signaux retardés (F/H), PALAISEAU-NANO INNOV(FRA), France
Description du poste
Vos missions:
- Construction d’un état de l’art complet des algorithmes d’apprentissage par renforcement pour des séries temporelles retardées
- Implémentation de l’état de l’art sous forme d’un package codé en langage Python
- Test des algorithmes implémentés sur l’environnement de simulation d’une supply chain
- Rédaction d’un mémoire de recherche avec résultats détaillés
- Présentation technique et scientifique lors de séminaire interne.
Compétences développées au cours de la mission:
- Analyse bibliographique de l’état de l’art
- Implémentation efficace d’algorithmes d’apprentissage par renforcement
- Rédaction et présentation scientifique,
Contexte et Environnement
Le groupe Total est un acteur majeur de l’énergie, qui produit et commercialise des carburants, du gaz naturel et de l’électricité bas carbone.
L’équipe R&D de Total@Saclay s’intéresse aux problématiques du numérique qui s’applique à l’optimisation des processus industriels de Total. Parmi les algorithmes majeures d’optimisation on retrouve l’apprentissage par renforcement.
Le stage a pour but d’explorer le domaine de l’apprentissage par renforcement pour une série temporelle retardée (reinforcement learning with delayed rewards). Il s’agit actuellement d’un grand challenge que la communauté n’a pas encore réussi à résoudre.
L’apprentissage par renforcement s’est imposé ces dernières années comme une thématique incontournable de la recherche en intelligence artificielle. Tout comme d’autres méthodes d’apprentissage automatique, les techniques d’apprentissage par renforcement utilisées ne datent pas d’hier (l’algorithme de Q-learning a été introduit en 1989), mais se sont révélées aux yeux du monde grâce à des avancées emblématiques (DeepMind a atteint en 2014 des performances surhumaines à la quasi-totalité des jeux Atari, avant de battre une légende du jeu de Go deux ans plus tard). Ces avancées n’ont été réalisées qu’en ayant supposé que la fonction de récompense est observée instantanément par l’agent apprenant. Malheureusement, pour des use-cases réalistes et industriels, les algorithmes actuels doivent être adaptés pour gérer un environnement dit retardé. D’où l’objectif de ce stage : développer des algorithmes de RL pour des séries temporelles retardées et de les éprouver sur des use cases industriels de Total. Le use case le plus adapté pour ce challenge est la gestion de l’inventaire où les stocks sont reçus avec un délai.
Livrables: mémoire de recherche (Master 2), code source d’algorithmes RL développés au cours du stage.
Profil recherché
Vous préparez un BAC+5 en Mathématiques ou Informatique et êtes à la recherche d’un stage de fin d’études de 6 mois à compter d’avril 2021.
Connaissances techniques:
- Vous justifiez idéalement d’une première expérience ou d’un premier projet académique en apprentissage par renforcement
- Python (pytorch, tensorflow, numpy, …)
- Statistiques & probabilités
Aptitudes requises:
- Implémentation des algorithmes d’apprentissage par renforcement
- Théorie de la statistique, théorie des probabilités
- Rigueur mathématique
Région, département, localité
91 – Essonne
Type d’emploi
Stage conventionné
Niveau d’expérience requis
Moins de 3 ans
A propos de nous/Profil de l’entreprise
BETTER ENERGY NEEDS YOU
Donnez le meilleur de vous-même à l’énergie ! Rejoignez TOTAL : plus de 500 métiers différents dans 130 pays. Une entreprise responsable avec des standards de sécurité et d’éthique forts, des perspectives d’évolution de carrière variées, une culture de l’innovation et une mission partagée par les 100.000 collaborateurs du Groupe : rendre l’énergie meilleure jour après jour.
Apply here