Lac de données
Un lac de données est un dépôt central de données provenant de diverses sources où l'accent est mis sur le stockage rapide et à faible coût des données, au détriment d'une structure bien définie. Une grande variété de données peut être stockée dans des lacs de données telles que les données structurées (comme les colonnes et les lignes dans les SGBDR classiques), données semi-structurées (fichiers CSV, XML et JSON) et données non structurées (images, vidéos, emails, pages web....). Dans un lac de données, les données sont stockées dans un format brut, ce qui les rend flexibles pour une utilisation ultérieure. Les lacs de données sont, en général, une base solide pour la préparation des données, les rapports, la visualisation, l'analyse approfondie, la science des données et le "machine learning".
Articles associés
Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)
Catégories : Big Data, Cloud computing, Data Engineering | Tags : HDFS, NiFi, Authentification, Autorisation, Hadoop, Azure Data Lake Storage (ADLS), Azure, OAuth2
Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plate-forme Big Data on…
5 nov. 2020
Téléchargement de jeux de données dans HDFS et Hive
Catégories : Big Data, Data Engineering | Tags : Analytique, HDFS, Hive, Big Data, Analyse de données, Data Engineering, Data structures, Base de données, Hadoop, Lac de données, Entrepôt de données (Data Warehouse)
Introduction De nos jours, l’analyse de larges quantités de données devient de plus en plus possible grâce aux technologies du Big data (Hadoop, Spark,…). Cela explique l’explosion du volume de…
By NGOM Aida
31 juil. 2020
Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas
Catégories : Business Intelligence, Cloud computing | Tags : Cloud, Lac de données, Data Science, Entrepôt de données (Data Warehouse), Snowflake
Snowflake est une plateforme d’entrepôt de données en mode SaaS qui centralise, dans le cloud, le stockage et le traitement de données structurées et semi-structurées. La génération croissante de…
7 avr. 2020
Cloudera CDP et migration Cloud de votre Data Warehouse
Catégories : Big Data, Cloud computing | Tags : Cloudera, Data Hub, Lac de données, Entrepôt de données (Data Warehouse), Azure
Alors que l’un de nos clients anticipe un passage vers le Cloud et avec l’annonce récente de la disponibilité de Cloudera CDP mi-septembre lors de la conférence Strata, il semble que le moment soit…
By WORMS David
16 déc. 2019
Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Lac de données, Format de fichier, Registre, Schéma
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
By WORMS David
18 juin 2018