Apache Spark

Apache Spark est une plateforme unifiée en mémoire pour les traitements et les analyses Big Data, le streaming de données, le requêtage SQL, le Machine Learning et les traitements de graphes.

Le projet open source a gradué au sein de la Fondation Apache en 2014 et trouve ses origine à l'UC Berkeley dans l'AMP Lab. Il est depuis devenu un acteur majeur de l'écosystème Big Data comme une alternative et une évolution au MapReduce.

En raison de son architecture distribuée, Apache Spark s'exécute dans un cluster pour traiter de grandes quantités de données avec des performances élevées et en parallèle. Apache Spark traite les données en mémoire et est optimisé pour limiter l'utilisation des disques.

De nombreux utilisateurs utilisent les Spark DataFrames, qui ont été intégrés dans Scala, Python et Java depuis Spark en version 2. Spark DataFrames, comparable à R DataFrames ou Pandas DataFrames, permet d'interroger les données dans des tables. Son intégration avec le Machine Learning permet d'appliquer des modèles analytiques au Big Data avec Apache Spark. C'est pourquoi le système est souvent appelé le couteau suisse du traitement des données.

Spark s'exécute sur diverses plates-formes, y compris dans des hôtes et des clusters autonomes, dans des clusters Hadoop avec YARN et dans la plateforme Databricks.

Articles associés

Canada - Maroc - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.