Data Engineering

Data is the energy that feeds digital transformation. The developers consume it in their applications. Data Analysts search, query and share it. Data Scientists feed their algorithms with it. Data Engineers are responsible for setting up the value chain that includes the collection, cleaning, enrichment and provision of data.

Manage scalability, ensure data security and integrity, be fault-tolerant, manipulate batch or streaming data, validate schemas, publish APIs, select formats, models and databases appropriate for their exhibitions are the prerogatives of the Data Engineer. From his work derives the trust and success of those who consume and exploit the data.

STREAMINGIOTGovernanceSPARKData ScienceKAFKAData MiningETLBATCHFLINKData Quality

Articles related to Data Engineering

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Categories: Big Data, Data Engineering, Formation | Tags: NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de donnƩes, Data Lake, EntrepƓt de donnƩes (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complĆØte avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur lā€™infrastructure qui a Ć©tĆ© dĆ©ployĆ©e toutā€¦

CHAVARRIA Tobias

By CHAVARRIA Tobias

Jul 24, 2023

CDP partie 1 : introduction Ć  l'architecture Data Lakehouse avec CDP

CDP partie 1 : introduction Ć  l'architecture Data Lakehouse avec CDP

Categories: Cloud computing, Data Engineering, Infrastructure | Tags: Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, EntrepƓt de donnƩes (Data Warehouse)

Cloudera Data Platform (CDP) est une data platform hybride pour lā€™intĆ©gration de donnĆ©e, le machine learning et lā€™analyse de la data. Dans cette sĆ©rie dā€™articles nous allons dĆ©crire comment installerā€¦

BAUM Stephan

By BAUM Stephan

Jun 8, 2023

DĆ©ploiement de Keycloak sur EC2

DĆ©ploiement de Keycloak sur EC2

Categories: Cloud computing, Data Engineering, Infrastructure | Tags: EC2, sƩcuritƩ, Authentification, AWS, Docker, Keycloak, SSL/TLS, SSO

Pourquoi utiliser Keycloak Keycloak est un fournisseur dā€™identitĆ© open source (IdP) utilisant lā€™authentification unique SSO. Un IdP est un outil permettant de crĆ©er, de maintenir et de gĆ©rer lesā€¦

BAUM Stephan

By BAUM Stephan

Mar 14, 2023

Stage infrastructure big data

Stage infrastructure big data

Categories: Big Data, Data Engineering, DevOps & SRE, Infrastructure | Tags: Infrastructure, Hadoop, Big Data, Cluster, Internship, Kubernetes, TDP

PrĆ©sentation de lā€™offre Le Big Data et lā€™informatique distribuĆ©e sont au cœur dā€™Adaltas. Nous accompagnons nos partenaires dans le dĆ©ploiement, la maintenance, lā€™optimisation et nouvellement leā€¦

BAUM Stephan

By BAUM Stephan

Dec 2, 2022

Comparaison des architectures de base de donnƩes : data warehouse, data lake and data lakehouse

Comparaison des architectures de base de donnƩes : data warehouse, data lake and data lakehouse

Categories: Big Data, Data Engineering | Tags: Gouvernance des donnƩes, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse), Format de fichier

Les architectures de base de donnĆ©es ont fait lā€™objet dā€™une innovation constante, Ć©voluant avec lā€™apparition de nouveaux cas dā€™utilisation, de contraintes techniques et dā€™exigences. Parmi les troisā€¦

HOLDORF Guillaume

By HOLDORF Guillaume

May 17, 2022

Collecte de logs Databricks vers Azure Monitor Ć  l'Ć©chelle d'un workspace

Collecte de logs Databricks vers Azure Monitor Ć  l'Ć©chelle d'un workspace

Categories: Cloud computing, Data Engineering, Adaltas Summit 2021 | Tags: MĆ©triques, Supervision, Spark, Azure, Databricks, Log4j

Databricks est une plateforme optimisĆ©e dā€™analyse de donnĆ©es, basĆ©e sur Apache Spark. La surveillance de la plateforme Databricks est cruciale pour garantir la qualitĆ© des donnĆ©es, les performances duā€¦

PLAYE Claire

By PLAYE Claire

May 10, 2022

PrƩsentation de Cloudera Data Platform (CDP)

PrƩsentation de Cloudera Data Platform (CDP)

Categories: Big Data, Cloud computing, Data Engineering | Tags: SDX, Big Data, Cloud, Cloudera, CDP, CDH, Analyse de donnƩes, Data Hub, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)

Cloudera Data Platform (CDP) est une plateforme de cloud computing pour les entreprises. CDP fournit des outils intĆ©grĆ©s et multifonctionnels en libre-service afin dā€™analyser et de centraliser lesā€¦

HOFFMANN Alexander

By HOFFMANN Alexander

Jul 19, 2021

Guide d'apprentissage pour vous former au Big Data & Ć  L'IA avec la plateforme Databricks

Guide d'apprentissage pour vous former au Big Data & Ć  L'IA avec la plateforme Databricks

Categories: Data Engineering, Formation | Tags: Cloud, Data Lake, Databricks, Delta Lake, MLflow

Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre Ć  votre rythme et selon vos besoins. Il vous en coĆ»tera 2000 $ US pour un accĆØs illimitĆ©ā€¦

KNYAZEVA Anna

By KNYAZEVA Anna

May 26, 2021

Les certifications Microsoft Azure associƩes aux donnƩes

Les certifications Microsoft Azure associƩes aux donnƩes

Categories: Cloud computing, Data Engineering | Tags: Gouvernance des donnƩes, Azure, Data Science

Microsoft Azure a des parcours de certification pour de nombreux postes techniques tels que dĆ©veloppeur, Data Engineers, Data Scientists et architect solution, entre autres. Chacune de cesā€¦

NGOM Barthelemy

By NGOM Barthelemy

Apr 14, 2021

Apache Liminal, quand le MLOps rencontre le GitOps

Apache Liminal, quand le MLOps rencontre le GitOps

Categories: Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags: Data Engineering, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow

Apache Liminal propose une solution clĆ©s en main permettant de dĆ©ployer un pipeline de Machine Learning. Cā€™est un projet open-source, qui centralise lā€™ensemble des Ć©tapes nĆ©cessaires Ć  lā€™entrainementā€¦

COINTEPAS Aargan

By COINTEPAS Aargan

Mar 31, 2021

Espace de stockage et temps de gƩnƩration des formats de fichiers

Espace de stockage et temps de gƩnƩration des formats de fichiers

Categories: Data Engineering, Data Science | Tags: Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)

Le choix dā€™un format de fichier appropriĆ© est essentiel, que les donnĆ©es soient en transit ou soient stockĆ©es. Chaque format de fichier a ses avantages et ses inconvĆ©nients. Nous les avons couvertsā€¦

NGOM Barthelemy

By NGOM Barthelemy

Mar 22, 2021

TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs

TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs

Categories: Big Data, Data Engineering, Data Science, Formation | Tags: Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Machine Learning, MLOps, Open source, Python, TensorFlow

La mise en production des modĆØles de Machine Learning (ML) et de Deep Learning (DL) est une tĆ¢che difficile. Il est reconnu quā€™elle est plus sujette Ć  lā€™Ć©chec et plus longue que la modĆ©lisationā€¦

Connexion Ć  ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Connexion Ć  ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Categories: Big Data, Cloud computing, Data Engineering | Tags: NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2

Alors que les projets Data construits sur le cloud deviennent de plus en plus rĆ©pandus, un cas dā€™utilisation courant consiste Ć  interagir avec le stockage cloud Ć  partir dā€™une plateforme Big Data onā€¦

LEONARD Gauthier

By LEONARD Gauthier

Nov 5, 2020

Suivi d'expƩriences avec MLflow sur Databricks Community Edition

Suivi d'expƩriences avec MLflow sur Databricks Community Edition

Categories: Data Engineering, Data Science, Formation | Tags: Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn

Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre dā€™outils permettant aux Data Scientists de crĆ©er des modĆØles plus rapidement augmente. Par consĆ©quent, la nĆ©cessitĆ© deā€¦

TƩlƩchargement de jeux de donnƩes dans HDFS et Hive

TƩlƩchargement de jeux de donnƩes dans HDFS et Hive

Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data Engineering, Data structures, Base de donnƩes, Hadoop, HDFS, Hive, Big Data, Analyse de donnƩes, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)

Introduction De nos jours, lā€™analyse de larges quantitĆ©s de donnĆ©es devient de plus en plus possible grĆ¢ce aux technologies du Big data (Hadoop, Spark,ā€¦). Cela explique lā€™explosion du volume deā€¦

NGOM Aida

By NGOM Aida

Jul 31, 2020

Comparaison de diffƩrents formats de fichier en Big Data

Comparaison de diffƩrents formats de fichier en Big Data

Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers

Dans lā€™univers du traitement des donnĆ©es, il existe diffĆ©rents types de formats de fichiers pour stocker vos jeu de donnĆ©es. Chaque format a ses propres avantages et inconvĆ©nients selon les cas dā€¦

NGOM Aida

By NGOM Aida

Jul 23, 2020

Importer ses donnƩes dans Databricks : tables externes et Delta Lake

Importer ses donnƩes dans Databricks : tables externes et Delta Lake

Categories: Data Engineering, Data Science, Formation | Tags: Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python

Au cours dā€™un projet dā€™apprentissage automatique (Machine Learning, ML), nous devons garder une trace des donnĆ©es test que nous utilisons. Cela est important Ć  des fins dā€™audit et pour Ć©valuer laā€¦

Optimisation d'applicationS Spark dans Hadoop YARN

Optimisation d'applicationS Spark dans Hadoop YARN

Categories: Data Engineering, Formation | Tags: Performance, Hadoop, Spark, Python

Apache Spark est un outil de traitement de donnĆ©es in-memory trĆØs rĆ©pandu en entreprise pour traiter des problĆ©matiques Big Data. Lā€™exĆ©cution dā€™une application Spark en production nĆ©cessite desā€¦

DE BAECQUE Ferdinand

By DE BAECQUE Ferdinand

Mar 30, 2020

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Categories: Data Engineering, Data Science, Formation | Tags: AWS, Azure, Databricks, Deep Learning, DĆ©ploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en mĆŖme temps une collecte de donnĆ©es de plus en plus importante dans tous les domaines, deā€¦

Configuration Ć  distance et auto-indexage des pipelines Logstash

Configuration Ć  distance et auto-indexage des pipelines Logstash

Categories: Data Engineering, Infrastructure | Tags: Docker, Elasticsearch, Kibana, Logstash, Log4j

Logstash est un puissant moteur de collecte de donnĆ©es qui sā€™intĆØgre dans la suite Elastic (Elasticsearch - Logstash - Kibana). Lā€™objectif de cet article est de montrer comment dĆ©ployer un clusterā€¦

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

Dec 13, 2019

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Categories: Data Engineering, Data Science | Tags: Flink, DevOps, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python

Contexte Lā€™Ć©volution exponentielle des donnĆ©es a bouleversĆ© lā€™industrie en redĆ©finissant les mĆ©thodes de stockages, de traitement et dā€™acheminement des donnĆ©es. Maitriser ces mĆ©thodes faciliteā€¦

WORMS David

By WORMS David

Nov 26, 2019

InsƩrer des lignes dans une table BigQuery avec des colonnes complexes

InsƩrer des lignes dans une table BigQuery avec des colonnes complexes

Categories: Cloud computing, Data Engineering | Tags: GCP, BigQuery, SchƩma, SQL

Le service BigQuery de Google Cloud est une solution data warehouse conƧue pour traiter dā€™Ć©normes volumes de donnĆ©es avec un certain nombre de fonctionnalitĆ©s disponibles. Parmi toutes celles-ci, nousā€¦

BEREZOWSKI CĆ©sar

By BEREZOWSKI CĆ©sar

Nov 22, 2019

Mise en production d'un modĆØle de Machine Learning

Mise en production d'un modĆØle de Machine Learning

Categories: Big Data, Data Engineering, Data Science, DevOps & SRE | Tags: DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, SchƩma

ā€œLe Machine Learning en entreprise nĆ©cessite une vision globale [ā€¦] du point de vue de lā€™ingĆ©nierie et de la plateforme de donnĆ©esā€, a expliquĆ© Justin Norman lors de son intervention sur leā€¦

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Sep 30, 2019

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark Streaming partie 4 : clustering avec Spark MLlib

Categories: Data Engineering, Data Science, Formation | Tags: Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming

Spark MLlib est une bibliothĆØque Spark dā€™Apache offrant des implĆ©mentations performantes de divers algorithmes dā€™apprentissage automatique supervisĆ©s et non supervisĆ©s. Ainsi, le framework Spark peutā€¦

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Jun 27, 2019

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Categories: Big Data, Data Engineering, DevOps & SRE | Tags: Apache Spark Streaming, DevOps, Enseignement et tutorial, Spark

Lā€™indisponibilitĆ© des services entraĆ®ne des pertes financiĆØres pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une applicationā€¦

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

May 31, 2019

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Categories: Data Engineering, Formation | Tags: Apache Spark Streaming, Spark, Python, Streaming

Spark est conƧu pour traiter des donnĆ©es streaming de maniĆØre fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour lā€™orchestration de tĆ¢ches. Ainsi, Spark Structuredā€¦

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

May 28, 2019

Spark Streaming partie 1Ā : construction de data pipelines avec Spark Structured Streaming

Spark Streaming partie 1Ā : construction de data pipelines avec Spark Structured Streaming

Categories: Data Engineering, Formation | Tags: Apache Spark Streaming, Kafka, Spark, Big Data, Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modĆØle Spark DataFrame. Le moteur Structuredā€¦

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Apr 18, 2019

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Categories: Data Engineering | Tags: Thrift, JDBC, Hadoop, Hive, Spark, SQL

La nature distribuĆ©e et en-mĆ©moire du moteur de traitement Spark en fait un excellant candidat pour exposer des donnĆ©es Ć  des clients qui souhaitent des latences faibles. Les dashboards, les notebooksā€¦

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Mar 25, 2019

Apache FlinkĀ : passĆ©, prĆ©sent et futur

Apache FlinkĀ : passĆ©, prĆ©sent et futur

Categories: Data Engineering | Tags: Flink, Pipeline, Kubernetes, Machine Learning, SQL, Streaming

Apache Flink est une petite pĆ©pite mĆ©ritant beaucoup plus dā€™attention. Plongeons nous dans son passĆ©, son Ć©tat actuel et le futur vers lequel il se dirige avec les keytones et prĆ©sentations de laā€¦

BEREZOWSKI CĆ©sar

By BEREZOWSKI CĆ©sar

Nov 5, 2018

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Categories: Big Data, Data Engineering | Tags: NiFi, Gouvernance des donnƩes, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, SchƩma

La crĆ©ation dā€™un Data Lake demande de la rigueur et de lā€™expĆ©rience. Voici plusieurs bonnes pratiques autour de lā€™ingestion des donnĆ©es en batch et en flux continu que nous recommandons et mettons enā€¦

WORMS David

By WORMS David

Jun 18, 2018

Apache Beam : un modĆØle de programmation unifiĆ© pour les pipelines de traitement de donnĆ©es

Apache Beam : un modĆØle de programmation unifiĆ© pour les pipelines de traitement de donnĆ©es

Categories: Data Engineering, DataWorks Summit 2018 | Tags: Apex, Beam, Flink, Pipeline, Spark

Dans cet article, nous allons passer en revue les concepts, lā€™histoire et le futur dā€™Apache Beam, qui pourrait bien devenir le nouveau standard pour la dĆ©finition des pipelines de traitement deā€¦

LEONARD Gauthier

By LEONARD Gauthier

May 24, 2018

Quelles nouveautĆ©s pour Apache Spark 2.3Ā ?

Quelles nouveautĆ©s pour Apache Spark 2.3Ā ?

Categories: Data Engineering, DataWorks Summit 2018 | Tags: Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming

Plongeons nous dans les nouveautĆ©s proposĆ©es par la nouvelle distribution 2.3 dā€™Apache Spark. Cette article est composĆ© de recherches et dā€™informations issues des prĆ©sentations suivantes du DataWorksā€¦

BEREZOWSKI CĆ©sar

By BEREZOWSKI CĆ©sar

May 23, 2018

Executer du Python dans un workflow Oozie

Executer du Python dans un workflow Oozie

Categories: Data Engineering | Tags: REST, Oozie, Elasticsearch, Python

Les workflows Oozie permettent dā€™utiliser plusieurs actions pour exĆ©cuter du code, cependant il peut ĆŖtre dĆ©licat dā€™exĆ©cuter du Python, nous allons voir comment faire. Jā€™ai rĆ©cemment implĆ©mentĆ© unā€¦

BEREZOWSKI CĆ©sar

By BEREZOWSKI CĆ©sar

Mar 6, 2018

Synchronisation Oracle vers Hadoop avec un CDC

Synchronisation Oracle vers Hadoop avec un CDC

Categories: Data Engineering | Tags: CDC, GoldenGate, Oracle, Hive, Sqoop, EntrepƓt de donnƩes (Data Warehouse)

Cette note rĆ©sulte dā€™une discussion autour de la synchronisation de donnĆ©es Ć©crites dans une base de donnĆ©es Ć  destination dā€™un entrepĆ“t stockĆ© dans Hadoop. Merci Ć  Claude Daub de GFI qui la rĆ©digeaā€¦

WORMS David

By WORMS David

Jul 13, 2017

EclairJS - Un peu de Spark dans les Web Apps

EclairJS - Un peu de Spark dans les Web Apps

Categories: Data Engineering, Front End | Tags: Jupyter, Spark, JavaScript

PrĆ©sentation de David Fallside, IBM. Les images sont issues des slides de prĆ©sentation. Introduction Le dĆ©veloppement dā€™applications Web est passĆ© dā€™un environnement Java vers des environnementsā€¦

WORMS David

By WORMS David

Jul 17, 2016

Diviser des fichiers HDFS en plusieurs tables Hive

Diviser des fichiers HDFS en plusieurs tables Hive

Categories: Data Engineering | Tags: Flume, Pig, HDFS, Hive, Oozie, SQL

Je vais montrer comment scinder fichier CSV stockĆ© dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter lesā€¦

WORMS David

By WORMS David

Sep 15, 2013

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Categories: Data Engineering | Tags: Business Intelligence, Hive, ORC, Parquet, Format de fichier

Il y a quelques jours, nous avons conduit un test dans le but de comparer diffĆ©rents format de fichiers et mĆ©thodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs Ć  HDFSā€¦

WORMS David

By WORMS David

Mar 13, 2012

Deux Hive UDAF pour convertir une aggregation vers une map

Deux Hive UDAF pour convertir une aggregation vers une map

Categories: Data Engineering | Tags: Java, HBase, Hive, Format de fichier

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes JavaĀ : ā€œUDAFToMapā€ et ā€œUDAFToOrderedMapā€ ou vousā€¦

WORMS David

By WORMS David

Mar 6, 2012

Canada - Morocco - France

We are a team of Open Source enthusiasts doing consulting in Big Data, Cloud, DevOps, Data Engineering, Data Scienceā€¦

We provide our customers with accurate insights on how to leverage technologies to convert their use cases to projects in production, how to reduce their costs and increase the time to market.

If you enjoy reading our publications and have an interest in what we do, contact us and we will be thrilled to cooperate with you.

Support Ukrain