Delta Lake

Delta Lake est une couche de stockage au-dessus d'un data lake existant. Il est compatible avec Apache Spark. Il aide à résoudre les problèmes de fiabilité des données et gérer leur cycle de vie. Les données sont stockées en Parquet, une format de stokage en colonne open-source. Delta Lake permet des transactions ACID, une gestion échelonnable des métadonnées, l'administration des versions des données, l'application d'un schéma et son évolution. Il support les mises à jour et les suppressions. Il est disponible en version open-source ou version gérée sur Databricks.

Articles associés

Importer ses données dans Databricks : tables externes et Delta Lake

Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.