Support Ukrain
Adaltas logoAdaltasAdaltas logoAdaltas

Apache Iceberg

[Apache Iceberg] (https://iceberg.apache.org/) est un format de données ouvert pour les grands volumes de données analytiques. Développé par Netflix, Iceberg a été conçu pour être une open community standard et une spécification de format de table qui permet la compatibilité entre plusieurs langages et implémentations. Après avoir été rendu open source, des organisations comme Apple ont activement contribué à son développement.

Entre 2016 et 2018, Iceberg, ainsi que Delta Tables et Apache Hudi ont émergé pour contester le format de table d'Apache Hive utilisé depuis 2010. En plus d'être une moteur de requête pour des gros batch jobs, Hive fonctionne comme un catalogue de métadonnées et de format de table utilisé par les moteurs de recherche tels que Spark et Presto. Le principal problème avec Hive était de gérer les changements sur de grands ensembles de données, sans les corrompre et tout en coordonnant plusieurs applications. Pour résoudre ce problème, des transactions atomiques étaient nécessaires auparavant.

Selon les créateurs d'Iceberg, le projet apporte la fiabilité et la simplicité des tables SQL au big data, en permettant aux moteurs comme Spark, Trino, Flink, Presto et Hive de travailler avec les mêmes tables simultanément et en toute sécurité. Il est écrit en Java et offre une API en Scala. Le centre de sa conception architecturale contient un catalogue qui prend en charge les opérations de mise à jour du pointeur de métadonnées, ce qui permet des transactions atomiques.

Iceberg est toujours en cours de développement et a commencé à être intégré et mis en œuvre par de nombreuses organisations comme AWS, Adobe, Apple, Netflix, Dremio, Linkedin et Expedia.

En savoir plus
Site officiel
Tags associés
Apache Hive
Delta Lake

Articles associés

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Entrepôt de données (Data Warehouse), Format de fichier

Les architectures de base de données ont fait l’objet d’une innovation constante, évoluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…

HOLDORF Guillaume

Par HOLDORF Guillaume

17 mai 2022

Canada - Maroc - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.