Analyse de performances de jobs Hadoop
Master intership offer
Contexte Garmadon est outil développé par Criteo permettant de collecter des traces d’exécution de jobs Hadoop. Garmadon instrumente les applications et enregistre des événements lors de l’appel à certaines méthodes. Les événements sont collectés via kafka et transférés à différents services d’analyse (ElasticSearch, Dr Elephant, etc.)
IDIOM est un projet collaboratif impliquant des industriels (DDN, Criteo, Qarnot, QuasarDB), et des académiques (Télécom SudParis, Université de Bretagne Occidentale, INRIA) visant à développer une suite d’outils d’analyse de performance pour les entrées/sorties. Pour cela, plusieurs outils de traces capturent les entrées/sorties d’une application à divers niveaux (MPI-IO, libc, kernel, etc.) Les différentes traces sont ensuite combinées via EasyTraceAnalyzer, un outil d’analyse de trace, afin d’obtenir une vision globale du système d’entrées/sorties, et d’effectuer des analyses (par exemple, détecter de la contention).
Objectifs du stage Le but du stage est d’intégrer Garmadon dans la chaîne d’outils du projet IDIOM. Pour cela, le format de trace de Garmadon sera étudié et un parser pour ce format sera développé dans l’outil d’analyse de traces EasyTraceAnalyzer.
Le stage se déroulera probablement suivant ces étapes
- Prise en main de Hadoop et de Garmadon
- Etude des traces générées par Garmadon
- Implémentation d’un parser pour Garmadon dans EasyTraceAnalyzer
- Analyse de traces Haddop avec EasyTraceAnalyzer
Mots-clés Big data, Hadoop, analyse de performance, entrées/sorties.
Dates du stage Le stage débutera entre janvier et avril 2020 pour une durée de 3 à 6 mois. Il se déroulera dans les locaux de Télécom SudParis à Evry ou à Palaiseau.
Profil recherché Nous recherchons un candidat ayant le profil suivant:
- Niveau Master en informatique
- Connaissances en systèmes distribués et parallélisme
- Bon niveau en programmation C ou C++
Candidater Pour candidater, contacter François TRAHAY (francois.trahay@telecom-sudparis.eu) en joignant les informations suivantes:
- Un CV complet
- Les bulletins de notes du master
- Éventuellement, une liste de quelques projets de développement logiciels (par exemple: profil GitHub ou Gitlab)