Introduction

En tant que Data Engineers chevronnés, vous avez probablement déjà déployé des dizaines de clusters Hadoop sur votre ordinateur ou dans le cloud, et vous savez combien il est fastidieux de modifier manuellement les scripts que vous utilisez pour le provisioning. Jumbo a été conçu pour écrire ces scripts en quelques minutes en fonction de vos besoins.

Durée: 1h15
Format: talk

Présentation

Jumbo est un projet Open Source hébergé sur GitHub qui a été développé chez Adaltas par deux stagiaires qui devaient acquérir une expérience de l’écosystème Hadoop. Il se présente sous la forme d’un outil CLI écrit en Python. Il offre une couche d’abstraction qui permet à tout utilisateur, expérimenté ou non avec les technologies Big Data, de décrire un cluster à provisionner. Il génère ensuite des scripts et utilise des outils DevOps de confiance pour provisionner le cluster.

Dans sa dernière version, Jumbo est capable de créer et de provisionner des clusters virtuels avec la stack HDP (Hortonworks Data Platform) et de les kérberiser à l’aide de Vagrant (avec VirtualBox ou KVM), Ansible et Ambari. Les futures versions permettront de déployer d’autres stacks Hadoop (par exemple, CDH – Cloudera Distribution for Hadoop) et d’autres technologies Big Data (par exemple, Elasticsearch).

Au cours de la conférence, nous allons présenter les concepts utilisés par Jumbo pour générer des scripts de déploiement et expliquer comment il exploite les outils DevOps sous le capot. Nous verrons également dans quelle direction va évoluer Jumbo et comment vous pouvez vous impliquer. La présentation sera suivie d’une démonstration / tutoriel de Jumbo.

Je vous invite à apporter votre ordinateur portable pour que vous puissiez voir la magie en action. Pour pouvoir suivre la démo, vous devez installer Vagrant, VirtualBox ou KVM et Python 3 sur votre ordinateur !

Auteur

Je suis Gauthier Leonard, Data Engineer chez Adaltas depuis septembre 2018. J’étais stagiaire dans la même entreprise, où j’ai développé Jumbo avec mon collègue Xavier Hermand.

Je suis actuellement en mission pour Stago, un leader dans la production d’équipements d’analyse sanguine, en tant que référent Big Data sur un nouveau projet de Data Lake. Le projet met en jeu les deux stacks Big Data de Hortonworks HDP (plate-forme de données) et HDF (DataFlow).

J’aime concevoir des architectures Big Data cohérentes et optimisées, même s’il me reste encore beaucoup à apprendre dans ce domaine. Je suis aussi un nazi de la grammaire quand il s’agit de coder.