Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks

Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks

KNYAZEVA Anna

By KNYAZEVA Anna

26 mai 2021

Catégories : Data Engineering, Formation | Tags : Cloud, Data Lake, Databricks, Delta Lake, MLflow [plus][moins]

Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité à ces modules sur une période d’un an. Notez néanmoins que ce programme d’apprentissage reste gratuit pour les entreprises clientes ou partenaires de Databricks. La liste des cours disponibles en ligne contient, au moment ou nous écrivons ces lignes, 71 cours qui couvrent les cinq domaines principaux de la Big Data et de l’IA. Cet article propose de vous aider à construire votre propre programme d’apprentissage.

Merci à toute l’équipe Databricks, en particulier Taggart McCurdy, pour leurs relectures, commentaires et contributions à cet article. Adaltas est un partenaire Databricks basé à Paris. N’hésitez pas à nous contacter si vous avez des questions.

Voici l’approche que nous vous proposons :

  • Finir tout les modules présents dans le socle commun qui contient des cours présents dans toutes les spécialités professionnelles. Ces cours enseignent les fondamentaux requis du Big Data et de l’IA.
  • Choisir une voie de spécialisation professionnelle parmi les suivantes :
    • Business Leader
    • SQL Analyst
    • Platform Administrator
    • Data Scientist
    • Data Engineer
  • Passer les cours fondamentaux, les options et les accréditations présentes dans votre spécialité.
  • Notez également, que les voies Platform Administrator, Data Scientist et Data Engineer ont des certifications spécifiques que vous pouvez passez pour obtenir des badges qui seront le gage de votre réussite.

Sur la base de cette proposition, chaque voie d’apprentissage que nous décrirons contient une succession de modules appartenant à trois groupes : les fondamentaux, les options et les accréditations. Les modules fondamentaux aident à construire progressivement un socle de connaissances spécifiques à chaque spécialisation professionnelle. Les modules optionnels sont là pour venir compléter vos connaissances sur des sujets très spécifiques. Enfin les accréditations sont l’occasion de mettre en pratique vos compétences en testant vos connaissances.

D’un point de vue pratique, gardez à l’esprit que certains modules peuvent nécessiter un investissement financier supplémentaires. Nous le préciserons dans cet article à chaque fois que nécessaire.

La structure du programme d’apprentissage et des différentes certifications disponibles pour chaque spécialité est décrite dans la figure ci-dessous. Tout ce qui est surligne en vert fonce correspond aux cours couverts par les modules en ligne proposés par Databricks Academy.

Databricks learning path

Ces cours vous donnent la possibilité d’obtenir trois accréditation. De plus ils vous préparent parfaitement pour attaquer des sujets plus avancées et pointus. C’est pourquoi passer les cours de ce programme est recommandé pour se construire un socle de connaissances solide dans le domaine du Big Data et de l’IA.

Le socle commun disponible pour toutes les spécialités professionnelles

Si vous découvrez le domaine du Big Data ou que vous n’avez aucune idée des services proposés par Databricks, nous vous conseillons de commencer par là. Le socle commun vous permettra d’obtenir toutes les connaissances fondamentales nécessaires à la compréhension des enjeux liées à la Big Data. De plus ces modules vous enseignent comment utiliser et exploiter la plateforme Databricks. Un compte gratuit “Databricks community edition” est suffisant pour finir l’ensemble des modules du socle commun.

Les fondamentaux

Les options

Les accréditations

La spécialisation Business Leader

Les modules de cette spécialisation proposent une approche générale et technique sur plusieurs sujets liés à l’ingénierie data, la science des données et à l’architecture de la plateforme Databricks. Cette spécialisation est parfaite pour des professionnels avec déjà une certaine expérience de la Big Data mais qui veulent renforcer leur compétences techniques sur les solutions proposées par Databricks. Un compte gratuit “Databricks community edition” est suffisant pour finir l’ensemble de ces enseignements.

Options

La spécialisation SQL Analyst

Choisissez cette voie si vous souhaitez améliorer vos compétences en analyse de données avec SQL sur la plateforme Databricks. Ce programme vous enseigne comment Databricks exploite Spark et le langage SQL pour établir des processus ETL et assurer l’analyse de données. Néanmoins, certains enseignements requièrent l’utilisation de la solution Databricks SQL analytics qui, à l’heure ou nous écrivons ces lignes, n’est toujours pas commercialisé ou accessible au public. Vous pouvez néanmoins vous inscrire sur la liste d’attente sur le site web de Databricks.

Les fondamentaux

Les options

Les accréditations

La spécialisation Platform Administrator

Cette spécialisation enseigne les connaissances théoriques et pratiques nécessaires à la gestion et la maintenance de clusters Big Data sur la plateforme Databricks et les solutions Cloud partenaires. Par conséquent, il est conseillé d’avoir déjà une bonne connaissance théorique et surtout pratique sur le Big Data, la plateforme Databricks et les solutions Cloud existantes. Enfin sachez que cette spécialisation entraîne des coûts supplémentaires incluant l’acquisition ou l’accès à un compte payant sur Databricks. L’ensemble des pré-requis supplémentaires est décrit dans le tableau ci-dessous. Notez qu’une certification validant la réussite de cette voie sera disponible durant le second semestre de l’année 2021.

Les fondamentaux

Les options

Liste des pré-requis nécessaires selon les modules enseignés

Modules Pré-requis
AWS Databricks Workspace Deployment Un compte Databricks avec les permissions “Account Owner”
AWS Databricks Identity Access Management Un espace de travail Databricks avec les droits administrateur
AWS Databricks Data Access Management Compte premium chez Databricks
Collection: AWS Databricks Workspace Administration Compte premium chez Databricks + les droits administrateur pour un espace de travail Databricks sur AWS
AWS Databricks SQL Analytics Administration Compte premium chez Databricks (avec SQL Analytics active) + Un espace de travail Databricks avec les droits administrateur
Azure Databricks Workspace Deployment Accès a la console administrateur pour un espace de travail Azure Databricks
Azure Databricks Data Access Management Compte premium chez Databricks
Collection: Azure Databricks Workspace Administration Compte premium chez Databricks ; les droits administrateur pour un espace de travail Databricks sur Microsoft Azure
Azure Databricks SQL Analytics Administration Compte premium chez Databricks (avec SQL Analytics active) + Un espace de travail Databricks avec les accès administrateur

La spécialisation Data Scientist

Soyons clair, cette spécialisation ne fera pas de vous un Data Scientist prêt à l’emploie ! Néanmoins les modules qui la composent vous enseignent comment exploiter parfaitement la plateforme Databricks pour (i) réaliser des analyses de données exploratoires, (ii) entraîner et tester des modèles de Machine Learning avec Spark pour ensuite (iii) les suivre et les déployer avec MLflow. Par conséquent, cette spécialisation s’adresse essentiellement à des Data Scientist déjà expérimentés. Vous trouverez également au sein de cette spécialisation un ensemble de cours optionnels et pratiques pour vous rafraîchir la mémoire ou compléter vos connaissances liées au Machine Learning. Enfin une des options propose de vous préparer à la certification Databricks Certified Associate Developer for Apache Spark Exam. Un compte gratuit “Databricks community edition” est suffisant pour finir l’ensemble de ces enseignements.

Les fondamentaux

Les options

La spécialisation Data Engineer

Cette spécialisation prépare des ingénieurs data (junior ou senior) à la maîtrise des outils proposés par Databricks pour architecturer des solutions Big Data. Les modules couvrent et fournissent les connaissances théoriques et pratiques nécessaires à un usage optimal et professionnel de Spark. Vous verrez notamment et en détails les dessous de l’architecture de Spark ainsi que ses différentes API (Scala et Python). Enfin des modules extrêmement pratiques vous montrerons comment exploiter au mieux Spark pour optimiser vos pipelines et vos traitement de données. Comme pour la spécialisation Data Sicentist vous trouverez un grand nombre de modules optionnels pour compléter votre apprentissage. La plupart de ces enseignements peuvent être suivis avec un compte gratuit “Databricks community edition”.

Les fondamentaux

Les options

Conclusion

Voici une possible approche pour structurer votre apprentissage sur la plateforme Databricks à l’aide des nombreux modules proposés par leur académie. Notre conseil : définissez un objectif précis (l’acquisition du socle commun ou l’accomplissement d’une voie de spécialisation en particulier) et travailler de manière consciencieuse. Enfin gardez à l’esprit que certaines spécialisations ne peuvent se finir que si vous disposez de ressources supplémentaires, par conséquent n’oubliez pas d’anticiper leurs éventuels coûts. De plus notez que nous mettrons à jour cet article à chaque fois que Databricks étendra leur offre d’apprentissage en ligne.

Canada - Maroc - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.