Apache Iceberg
[Apache Iceberg] (https://iceberg.apache.org/) est un format de données ouvert pour les grands volumes de données analytiques. Développé par Netflix, Iceberg a été conçu pour être une open community standard et une spécification de format de table qui permet la compatibilité entre plusieurs langages et implémentations. Après avoir été rendu open source, des organisations comme Apple ont activement contribué à son développement.
Entre 2016 et 2018, Iceberg, ainsi que Delta Tables et Apache Hudi ont émergé pour contester le format de table d'Apache Hive utilisé depuis 2010. En plus d'être une moteur de requête pour des gros batch jobs, Hive fonctionne comme un catalogue de métadonnées et de format de table utilisé par les moteurs de recherche tels que Spark et Presto. Le principal problème avec Hive était de gérer les changements sur de grands ensembles de données, sans les corrompre et tout en coordonnant plusieurs applications. Pour résoudre ce problème, des transactions atomiques étaient nécessaires auparavant.
Selon les créateurs d'Iceberg, le projet apporte la fiabilité et la simplicité des tables SQL au big data, en permettant aux moteurs comme Spark, Trino, Flink, Presto et Hive de travailler avec les mêmes tables simultanément et en toute sécurité. Il est écrit en Java et offre une API en Scala. Le centre de sa conception architecturale contient un catalogue qui prend en charge les opérations de mise à jour du pointeur de métadonnées, ce qui permet des transactions atomiques.
Iceberg est toujours en cours de développement et a commencé à être intégré et mis en œuvre par de nombreuses organisations comme AWS, Adobe, Apple, Netflix, Dremio, Linkedin et Expedia.
- En savoir plus
- Site officiel
Articles associés

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse
Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Entrepôt de données (Data Warehouse), Format de fichier
Les architectures de base de données ont fait l’objet d’une innovation constante, évoluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…
17 mai 2022