Stage de fin d'étude printemps 2022 - construction d'un Datalab

Stage de fin d'étude printemps 2022 - construction d'un Datalab

WORMS David

By WORMS David

24 nov. 2021

Descriptif du stage

Au cours des dernières années, nous avons développé la capacité d’utiliser les ordinateurs pour traiter une grande quantité de données. L’écosystème a évolué vers une offre étendue d’outils et de bibliothèques et avec l’émergence de la data science. Connecter tous ces composants dans une plate-forme cohérente et sécurisée est une tâche ardue. Les nouveaux arrivants ainsi que les utilisateurs plus expérimentés bénéficient de plateformes qui offrent une expérience développeur optimale.

Les datalabs fournissent aux développeurs une suite complète de logiciels pour les aider à explorer, visualiser, traiter et exposer des données. En utilisant leur langage préféré tel que Python, JavaScript ou SQL, ils créent des pipelines pour collecter et stocker des données, créer des tableaux de bord de visualisation et déployer des modèles d’apprentissage automatique.

Dans le cadre de votre stage, vous assemblerez plusieurs technologies open source pour fournir aux data scientists un environnement moderne adapté à leurs besoins. Les data scientists s’attendent à une interface Web conviviale pour accéder à leurs éditeurs de développement préférés, la possibilité d’utiliser leurs bibliothèques habituelles sans restriction dans un environnement isolé et autonome, la mise à disposition des ressources en fonction de leurs besoins et la possibilité de pousser leur code en production.

La plate-forme Datalab s’appuie sur le backend Kubernetes couplé à un stockage de documents compatible avec n’importe quelle interface compatible avec le standard S3. Les conteneurs à la demande doivent être provisionnés et couvrir un large panel de bases de données (Elasticsearch, MongoDB, PostgreSQL, …), d’environnements (TensorFlow, VSCode, Jupyter, RStudio, …) et d’outils complémentaires tels que la gestion des secrets avec Vault, le provisionnement automatisé avec Argo CD, l’authentification OpenID Connect avec Keycloack, la planification de workflow, la publication d’API, …

Au cours de ce stage, vous vous familiariserez avec Kubernetes et l’écosystème CNCF, acquerrez une compréhension approfondie des rôles et des responsabilités attendus des Data Scientists et serez à l’aise pour répondre à leurs besoins. Vous rejoindrez une équipe agile dirigée par un expert en Data Science.

De plus, vous obtiendrez à la fin du stage une certification d’un fournisseur Cloud, et une certification Databricks.

Présentation de la société

Adaltas est une agence de conseil dirigée par une équipe d’experts open source spécialisée dans la gestion des données. Nous déployons et exploitons les infrastructures de stockage et de calcul en collaboration avec nos clients.

Partenaire de Cloudera et Databricks, nous sommes également des contributeurs open source. Nous vous invitons à parcourir notre site et nos nombreuses publications techniques pour en savoir plus sur l’entreprise.

Responsabilités

  • Comprendre et addresser les besoins des data scientists
  • Maîtriser les différentes rouages d’un Datalab
  • Déployer le Datalab dans un cluster Kubernetes
  • Déployer des workflows de machine learning

Profil recherché

  • Ecole d’ingénieur, stage de fin d’études
  • Analytique et structuré(e)
  • Autonome et curieux(se)
  • Vous êtes quelqu’un d’ouvert qui aime échanger, communiquer et apprendre des autres
  • Bonnes connaissances en Python, Spark et en systèmes Linux

Vous serez en charge de comprendre l’architecture et de l’intégrer à une infrastructure existante. Vous travaillerez avec des InfraOps et des data scientists. Nous recherchons une personne qui développera des compétences sur les outils et solutions suivants :

Toutes expériences complémentaires sont des atouts.

Informations additionnelles

  • Localisation : Boulogne Billancourt, France
  • Langues : Français ou anglais
  • Démarrage : février 2022
  • Durée : 6 mois
  • Télétravail : possibilité d’effectuer 2 jours par semaine en distanciel

Équipement à disposition

Un ordinateur portable avec les caractéristiques suivantes :

  • 32GB RAM
  • 1TB SSD
  • 8c/16t CPU

Un cluster composé de :

  • 3x 28c/56t Intel Xeon Scalable Gold 6132
  • 3x 192TB RAM DDR4 ECC 2666MHz
  • 3x 14 SSD 480GB SATA Intel S4500 6Gbps

Plateformes, composants, outils

Un cluster Kubernetes.

Rémunération

  • Salaire 1 200 € / mois
  • Tickets restaurants
  • Titres de transport
  • Participation à une conférence internationale

Historiquement, les conférences auxquelles nous avons participé incluent : la KubeCon organisée par la fondation CNCF, l’Open Source Summit de la Linux Foundation et la Fosdem.

Contact

Pour toute demande d’information complémentaire et pour déposer votre candidature, adressez-vous à David Worms :

Canada - Maroc - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.