Apache Iceberg

[Apache Iceberg] (https://iceberg.apache.org/) est un format de données ouvert pour les grands volumes de données analytiques. Développé par Netflix, Iceberg a été conçu pour être une open community standard et une spécification de format de table qui permet la compatibilité entre plusieurs langages et implémentations. Après avoir été rendu open source, des organisations comme Apple ont activement contribué à son développement.

Entre 2016 et 2018, Iceberg, ainsi que Delta Tables et Apache Hudi ont émergé pour contester le format de table d'Apache Hive utilisé depuis 2010. En plus d'être une moteur de requête pour des gros batch jobs, Hive fonctionne comme un catalogue de métadonnées et de format de table utilisé par les moteurs de recherche tels que Spark et Presto. Le principal problème avec Hive était de gérer les changements sur de grands ensembles de données, sans les corrompre et tout en coordonnant plusieurs applications. Pour résoudre ce problème, des transactions atomiques étaient nécessaires auparavant.

Selon les créateurs d'Iceberg, le projet apporte la fiabilité et la simplicité des tables SQL au big data, en permettant aux moteurs comme Spark, Trino, Flink, Presto et Hive de travailler avec les mêmes tables simultanément et en toute sécurité. Il est écrit en Java et offre une API en Scala. Le centre de sa conception architecturale contient un catalogue qui prend en charge les opérations de mise à jour du pointeur de métadonnées, ce qui permet des transactions atomiques.

Iceberg est toujours en cours de développement et a commencé à être intégré et mis en œuvre par de nombreuses organisations comme AWS, Adobe, Apple, Netflix, Dremio, Linkedin et Expedia.

En savoir plus: Site officiel
Tags associés: Apache Hive; Delta Lake

Articles associés

Adaltas Summit 2022 Morzine

Catégories : Big Data, Adaltas Summit 2022 | Tags : Data Engineering, Infrastructure, Iceberg, Conteneur, Lakehouse, Docker, Kubernetes

Pour sa troisième édition, toute l’équipe d’Adaltas se retrouve à Morzine pour une semaine entière avec 2 jours dédiés à la technologie les 15 et 16 septembre 2022. Les intervenants choisissent l’un…

Par WORMS David

13 janv. 2023

Exigences et attentes d'une plateforme Big Data

Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science

Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…

Par WORMS David

23 mars 2023

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, Entrepôt de données (Data Warehouse)

Cloudera Data Platform (CDP) est une data platform hybride pour l’intégration de donnée, le machine learning et l’analyse de la data. Dans cette série d’articles nous allons décrire comment installer…

Par BAUM Stephan

8 juin 2023

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Catégories : Big Data, Data Engineering, Formation | Tags : Business Intelligence, Data Engineering, Iceberg, NiFi, Spark, Big Data, Cloudera, CDP, Analyse de données, Data Lake, Entrepôt de données (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complète avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a été déployée tout…

Par CHAVARRIA Tobias

24 juil. 2023

Apache Hop 101, introduction et installation

Catégories : Data Engineering | Tags : Data Engineering, DevOps, Enseignement et tutorial, Pipeline, Airflow, Hive, Iceberg, NiFi, Argo Workflows, Docker, Git

Apache Hop est un outil d’ETL (Extract Transform and Load) conçue pour rendre le développement de pipelines intuitif, maintenable et évolutif. Cet article fait partie d’une série de 2 articles…

Par HUANG Mori

10 mai 2026

Apache Hop 101, tutoriel pour la prise en main

Catégories : Data Engineering | Tags : Data Engineering, DevOps, Enseignement et tutorial, Pipeline, Airflow, Hive, Iceberg, NiFi, Argo Workflows, Docker, Git

Ce tutoriel détaille la création d’un projet, d’un pipeline et d’un workflow dans Apache Hop. En s’appuyant sur les concepts fondamentaux introduits dans l’article précédent et en utilisant l…

Par HUANG Mori

26 mai 2026

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Format de fichier

Les architectures de base de données ont fait l’objet d’une innovation constante, évoluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…

Par HOLDORF Guillaume

17 mai 2022