Parallel and Distributed Systems Group

Computer Science Department of Telecom SudParis

Analyse de performances de jobs Hadoop

Master intership offer

 

Contexte Garmadon est outil développé par Criteo permettant de collecter des traces d’exécution de jobs Hadoop. Garmadon instrumente les applications et enregistre des événements lors de l’appel à certaines méthodes. Les événements sont collectés via kafka et transférés à différents services d’analyse (ElasticSearch, Dr Elephant, etc.)

IDIOM est un projet collaboratif impliquant des industriels (DDN, Criteo, Qarnot, QuasarDB), et des académiques (Télécom SudParis, Université de Bretagne Occidentale, INRIA) visant à développer une suite d’outils d’analyse de performance pour les entrées/sorties. Pour cela, plusieurs outils de traces capturent les entrées/sorties d’une application à divers niveaux (MPI-IO, libc, kernel, etc.) Les différentes traces sont ensuite combinées via EasyTraceAnalyzer, un outil d’analyse de trace, afin d’obtenir une vision globale du système d’entrées/sorties, et d’effectuer des analyses (par exemple, détecter de la contention).

Objectifs du stage Le but du stage est d’intégrer Garmadon dans la chaîne d’outils du projet IDIOM. Pour cela, le format de trace de Garmadon sera étudié et un parser pour ce format sera développé dans l’outil d’analyse de traces EasyTraceAnalyzer.

Le stage se déroulera probablement suivant ces étapes

Mots-clés Big data, Hadoop, analyse de performance, entrées/sorties.

Dates du stage Le stage débutera entre janvier et avril 2020 pour une durée de 3 à 6 mois. Il se déroulera dans les locaux de Télécom SudParis à Evry ou à Palaiseau.

Profil recherché Nous recherchons un candidat ayant le profil suivant:

Candidater Pour candidater, contacter François TRAHAY (francois.trahay@telecom-sudparis.eu) en joignant les informations suivantes: