Lac de données (Data Lake)

Un lac de données (Data Lake) est un dépôt central de données provenant de diverses sources où l'accent est mis sur le stockage rapide et à faible coût des données, au détriment d'une structure bien définie.

Une grande variété de données peut être stockée dans des Data Lakes telles que les données structurées (comme les colonnes et les lignes dans les SGBDR classiques), données semi-structurées (fichiers CSV, XML et JSON) et données non structurées (images, vidéos, emails, pages web....).

Dans un Data Lake, les données sont stockées dans un format brut, ce qui les rend flexibles pour une utilisation ultérieure. Les Data Lake sont, en général, une base solide pour la préparation des données, les rapports, la visualisation, l'analyse approfondie, la science des données et le "machine learning".

En savoir plus
Wikipedia

Articles associés

Introduction à OpenLineage

Introduction à OpenLineage

Catégories : Big Data, Gouvernance des données, Infrastructure | Tags : Atlas, Data Engineering, Infrastructure, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Traçabilité (data lineage)

OpenLineage est une spécification open source de lineage des données. La spécification est complétée par Marquez, son implémentation de référence. Depuis son lancement fin 2020, OpenLineage est…

PARREIRA Christophe

Par PARREIRA Christophe

19 déc. 2023

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Catégories : Big Data, Data Engineering, Formation | Tags : NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de données, Data Lake, Entrepôt de données (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complète avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a été déployée tout…

CHAVARRIA Tobias

Par CHAVARRIA Tobias

24 juil. 2023

Exigences et attentes d'une plateforme Big Data

Exigences et attentes d'une plateforme Big Data

Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science

Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…

WORMS David

Par WORMS David

23 mars 2023

Stockage objet Ceph dans un cluster Kubernetes avec Rook

Stockage objet Ceph dans un cluster Kubernetes avec Rook

Catégories : Big Data, Gouvernance des données, Formation | Tags : Amazon S3, Big Data, Ceph, Cluster, Data Lake, Kubernetes, Storage

Ceph est un système tout-en-un de stockage distribué. Fiable et mature, sa première version stable est parue en 2012 et a été depuis la référence pour le stockage open source. L’avantage principal de…

BIGOT Luka

Par BIGOT Luka

4 août 2022

Architecture du stockage objet et attributs du standard S3

Architecture du stockage objet et attributs du standard S3

Catégories : Big Data, Gouvernance des données | Tags : Base de données, API, Amazon S3, Big Data, Data Lake, Storage

Le stockage objet a gagné en popularité parmi les architectures de stockage de données. Comparé aux systèmes de fichiers et au stockage bloc, le stockage objet ne rencontre pas de limitations lorsqu…

BIGOT Luka

Par BIGOT Luka

20 juin 2022

Stockage objet avec MinIO dans un cluster Kubernetes

Stockage objet avec MinIO dans un cluster Kubernetes

Catégories : Big Data, Gouvernance des données, Formation | Tags : Amazon S3, Big Data, Cluster, Data Lake, Kubernetes, Storage

MinIO est une solution de stockage objet populaire. Souvent recommandé pour sa simplicité d’utilisation et d’installation, MinIO n’est pas seulement qu’un bon moyen pour débuter avec le stockage objet…

BIGOT Luka

Par BIGOT Luka

9 juil. 2022

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Format de fichier

Les architectures de base de données ont fait l’objet d’une innovation constante, évoluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…

HOLDORF Guillaume

Par HOLDORF Guillaume

17 mai 2022

Présentation de Cloudera Data Platform (CDP)

Présentation de Cloudera Data Platform (CDP)

Catégories : Big Data, Cloud computing, Data Engineering | Tags : SDX, Big Data, Cloud, Cloudera, CDP, CDH, Analyse de données, Data Hub, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse)

Cloudera Data Platform (CDP) est une plateforme de cloud computing pour les entreprises. CDP fournit des outils intégrés et multifonctionnels en libre-service afin d’analyser et de centraliser les…

HOFFMANN Alexander

Par HOFFMANN Alexander

19 juil. 2021

Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks

Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks

Catégories : Data Engineering, Formation | Tags : Cloud, Data Lake, Databricks, Delta Lake, MLflow

Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité…

KNYAZEVA Anna

Par KNYAZEVA Anna

26 mai 2021

Espace de stockage et temps de génération des formats de fichiers

Espace de stockage et temps de génération des formats de fichiers

Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)

Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…

NGOM Barthelemy

Par NGOM Barthelemy

22 mars 2021

Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Catégories : Big Data, Cloud computing, Data Engineering | Tags : NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2

Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plateforme Big Data on…

LEONARD Gauthier

Par LEONARD Gauthier

5 nov. 2020

Téléchargement de jeux de données dans HDFS et Hive

Téléchargement de jeux de données dans HDFS et Hive

Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data Engineering, Data structures, Base de données, Hadoop, HDFS, Hive, Big Data, Analyse de données, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse)

Introduction De nos jours, l’analyse de larges quantités de données devient de plus en plus possible grâce aux technologies du Big data (Hadoop, Spark,…). Cela explique l’explosion du volume de…

NGOM Aida

Par NGOM Aida

31 juil. 2020

Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas

Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas

Catégories : Business Intelligence, Cloud computing | Tags : Cloud, Data Lake, Data Science, Entrepôt de données (Data Warehouse), Snowflake

Snowflake est une plateforme d’entrepôt de données en mode SaaS qui centralise, dans le cloud, le stockage et le traitement de données structurées et semi-structurées. La génération croissante de…

HAMELIN-BOYER Jules

Par HAMELIN-BOYER Jules

7 avr. 2020

Cloudera CDP et migration Cloud de votre Data Warehouse

Cloudera CDP et migration Cloud de votre Data Warehouse

Catégories : Big Data, Cloud computing | Tags : Azure, Cloudera, Data Hub, Data Lake, Entrepôt de données (Data Warehouse)

Alors que l’un de nos clients anticipe un passage vers le Cloud et avec l’annonce récente de la disponibilité de Cloudera CDP mi-septembre lors de la conférence Strata, il semble que le moment soit…

WORMS David

Par WORMS David

16 déc. 2019

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : NiFi, Gouvernance des données, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

WORMS David

Par WORMS David

18 juin 2018

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain