Data Engineering

Data is the energy that feeds digital transformation. The developers consume it in their applications. Data Analysts search, query and share it. Data Scientists feed their algorithms with it. Data Engineers are responsible for setting up the value chain that includes the collection, cleaning, enrichment and provision of data.

Manage scalability, ensure data security and integrity, be fault-tolerant, manipulate batch or streaming data, validate schemas, publish APIs, select formats, models and databases appropriate for their exhibitions are the prerogatives of the Data Engineer. From his work derives the trust and success of those who consume and exploit the data.

STREAMINGIOTGovernanceSPARKData ScienceKAFKAData MiningETLBATCHFLINKData Quality

Articles related to Data Engineering

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Categories: Big Data, Data Engineering, Formation | Tags: NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de donnƩes, Data Lake, EntrepƓt de donnƩes (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complĆØte avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a Ć©tĆ© dĆ©ployĆ©e tout…

CHAVARRIA Tobias

By CHAVARRIA Tobias

Jul 24, 2023

CDP partie 1 : introduction Ć  l'architecture Data Lakehouse avec CDP

CDP partie 1 : introduction Ć  l'architecture Data Lakehouse avec CDP

Categories: Cloud computing, Data Engineering, Infrastructure | Tags: Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, EntrepƓt de donnƩes (Data Warehouse)

Cloudera Data Platform (CDP) est une data platform hybride pour l’intĆ©gration de donnĆ©e, le machine learning et l’analyse de la data. Dans cette sĆ©rie d’articles nous allons dĆ©crire comment installer…

BAUM Stephan

By BAUM Stephan

Jun 8, 2023

DƩploiement de Keycloak sur EC2

DƩploiement de Keycloak sur EC2

Categories: Cloud computing, Data Engineering, Infrastructure | Tags: EC2, sƩcuritƩ, Authentification, AWS, Docker, Keycloak, SSL/TLS, SSO

Pourquoi utiliser Keycloak Keycloak est un fournisseur d’identitĆ© open source (IdP) utilisant l’authentification unique SSO. Un IdP est un outil permettant de crĆ©er, de maintenir et de gĆ©rer les…

BAUM Stephan

By BAUM Stephan

Mar 14, 2023

Stage infrastructure big data

Stage infrastructure big data

Categories: Big Data, Data Engineering, DevOps & SRE, Infrastructure | Tags: Infrastructure, Hadoop, Big Data, Cluster, Internship, Kubernetes, TDP

PrĆ©sentation de l’offre Le Big Data et l’informatique distribuĆ©e sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le dĆ©ploiement, la maintenance, l’optimisation et nouvellement le…

BAUM Stephan

By BAUM Stephan

Dec 2, 2022

Comparaison des architectures de base de donnƩes : data warehouse, data lake and data lakehouse

Comparaison des architectures de base de donnƩes : data warehouse, data lake and data lakehouse

Categories: Big Data, Data Engineering | Tags: Gouvernance des donnƩes, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse), Format de fichier

Les architectures de base de donnĆ©es ont fait l’objet d’une innovation constante, Ć©voluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…

HOLDORF Guillaume

By HOLDORF Guillaume

May 17, 2022

Collecte de logs Databricks vers Azure Monitor Ơ l'Ʃchelle d'un workspace

Collecte de logs Databricks vers Azure Monitor Ơ l'Ʃchelle d'un workspace

Categories: Cloud computing, Data Engineering, Adaltas Summit 2021 | Tags: MƩtriques, Supervision, Spark, Azure, Databricks, Log4j

Databricks est une plateforme optimisĆ©e d’analyse de donnĆ©es, basĆ©e sur Apache Spark. La surveillance de la plateforme Databricks est cruciale pour garantir la qualitĆ© des donnĆ©es, les performances du…

PLAYE Claire

By PLAYE Claire

May 10, 2022

PrƩsentation de Cloudera Data Platform (CDP)

PrƩsentation de Cloudera Data Platform (CDP)

Categories: Big Data, Cloud computing, Data Engineering | Tags: SDX, Big Data, Cloud, Cloudera, CDP, CDH, Analyse de donnƩes, Data Hub, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)

Cloudera Data Platform (CDP) est une plateforme de cloud computing pour les entreprises. CDP fournit des outils intĆ©grĆ©s et multifonctionnels en libre-service afin d’analyser et de centraliser les…

HOFFMANN Alexander

By HOFFMANN Alexander

Jul 19, 2021

Guide d'apprentissage pour vous former au Big Data & Ć  L'IA avec la plateforme Databricks

Guide d'apprentissage pour vous former au Big Data & Ć  L'IA avec la plateforme Databricks

Categories: Data Engineering, Formation | Tags: Cloud, Data Lake, Databricks, Delta Lake, MLflow

Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre Ć  votre rythme et selon vos besoins. Il vous en coĆ»tera 2000 $ US pour un accĆØs illimité…

KNYAZEVA Anna

By KNYAZEVA Anna

May 26, 2021

Les certifications Microsoft Azure associƩes aux donnƩes

Les certifications Microsoft Azure associƩes aux donnƩes

Categories: Cloud computing, Data Engineering | Tags: Gouvernance des donnƩes, Azure, Data Science

Microsoft Azure a des parcours de certification pour de nombreux postes techniques tels que dĆ©veloppeur, Data Engineers, Data Scientists et architect solution, entre autres. Chacune de ces…

NGOM Barthelemy

By NGOM Barthelemy

Apr 14, 2021

Apache Liminal, quand le MLOps rencontre le GitOps

Apache Liminal, quand le MLOps rencontre le GitOps

Categories: Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags: Data Engineering, CI/CD, Data Science, Deep Learning, DƩploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow

Apache Liminal propose une solution clĆ©s en main permettant de dĆ©ployer un pipeline de Machine Learning. C’est un projet open-source, qui centralise l’ensemble des Ć©tapes nĆ©cessaires Ć  l’entrainement…

COINTEPAS Aargan

By COINTEPAS Aargan

Mar 31, 2021

Espace de stockage et temps de gƩnƩration des formats de fichiers

Espace de stockage et temps de gƩnƩration des formats de fichiers

Categories: Data Engineering, Data Science | Tags: Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)

Le choix d’un format de fichier appropriĆ© est essentiel, que les donnĆ©es soient en transit ou soient stockĆ©es. Chaque format de fichier a ses avantages et ses inconvĆ©nients. Nous les avons couverts…

NGOM Barthelemy

By NGOM Barthelemy

Mar 22, 2021

TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs

TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs

Categories: Big Data, Data Engineering, Data Science, Formation | Tags: Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, DƩploiement, Machine Learning, MLOps, Open source, Python, TensorFlow

La mise en production des modĆØles de Machine Learning (ML) et de Deep Learning (DL) est une tĆ¢che difficile. Il est reconnu qu’elle est plus sujette Ć  l’échec et plus longue que la modĆ©lisation…

Connexion Ć  ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Connexion Ć  ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Categories: Big Data, Cloud computing, Data Engineering | Tags: NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2

Alors que les projets Data construits sur le cloud deviennent de plus en plus rĆ©pandus, un cas d’utilisation courant consiste Ć  interagir avec le stockage cloud Ć  partir d’une plateforme Big Data on…

LEONARD Gauthier

By LEONARD Gauthier

Nov 5, 2020

Suivi d'expƩriences avec MLflow sur Databricks Community Edition

Suivi d'expƩriences avec MLflow sur Databricks Community Edition

Categories: Data Engineering, Data Science, Formation | Tags: Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn

Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de crĆ©er des modĆØles plus rapidement augmente. Par consĆ©quent, la nĆ©cessitĆ© de…

TƩlƩchargement de jeux de donnƩes dans HDFS et Hive

TƩlƩchargement de jeux de donnƩes dans HDFS et Hive

Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data Engineering, Data structures, Base de donnƩes, Hadoop, HDFS, Hive, Big Data, Analyse de donnƩes, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)

Introduction De nos jours, l’analyse de larges quantitĆ©s de donnĆ©es devient de plus en plus possible grĆ¢ce aux technologies du Big data (Hadoop, Spark,…). Cela explique l’explosion du volume de…

NGOM Aida

By NGOM Aida

Jul 31, 2020

Comparaison de diffƩrents formats de fichier en Big Data

Comparaison de diffƩrents formats de fichier en Big Data

Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers

Dans l’univers du traitement des donnĆ©es, il existe diffĆ©rents types de formats de fichiers pour stocker vos jeu de donnĆ©es. Chaque format a ses propres avantages et inconvĆ©nients selon les cas d…

NGOM Aida

By NGOM Aida

Jul 23, 2020

Importer ses donnƩes dans Databricks : tables externes et Delta Lake

Importer ses donnƩes dans Databricks : tables externes et Delta Lake

Categories: Data Engineering, Data Science, Formation | Tags: Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des donnĆ©es test que nous utilisons. Cela est important Ć  des fins d’audit et pour Ć©valuer la…

Optimisation d'applicationS Spark dans Hadoop YARN

Optimisation d'applicationS Spark dans Hadoop YARN

Categories: Data Engineering, Formation | Tags: Performance, Hadoop, Spark, Python

Apache Spark est un outil de traitement de donnĆ©es in-memory trĆØs rĆ©pandu en entreprise pour traiter des problĆ©matiques Big Data. L’exĆ©cution d’une application Spark en production nĆ©cessite des…

DE BAECQUE Ferdinand

By DE BAECQUE Ferdinand

Mar 30, 2020

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Categories: Data Engineering, Data Science, Formation | Tags: AWS, Azure, Databricks, Deep Learning, DƩploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en mĆŖme temps une collecte de donnĆ©es de plus en plus importante dans tous les domaines, de…

Configuration Ć  distance et auto-indexage des pipelines Logstash

Configuration Ć  distance et auto-indexage des pipelines Logstash

Categories: Data Engineering, Infrastructure | Tags: Docker, Elasticsearch, Kibana, Logstash, Log4j

Logstash est un puissant moteur de collecte de donnĆ©es qui s’intĆØgre dans la suite Elastic (Elasticsearch - Logstash - Kibana). L’objectif de cet article est de montrer comment dĆ©ployer un cluster…

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

Dec 13, 2019

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Categories: Data Engineering, Data Science | Tags: DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python

Contexte L’évolution exponentielle des donnĆ©es a bouleversĆ© l’industrie en redĆ©finissant les mĆ©thodes de stockages, de traitement et d’acheminement des donnĆ©es. Maitriser ces mĆ©thodes facilite…

WORMS David

By WORMS David

Nov 26, 2019

InsƩrer des lignes dans une table BigQuery avec des colonnes complexes

InsƩrer des lignes dans une table BigQuery avec des colonnes complexes

Categories: Cloud computing, Data Engineering | Tags: GCP, BigQuery, SchƩma, SQL

Le service BigQuery de Google Cloud est une solution data warehouse conƧue pour traiter d’énormes volumes de donnĆ©es avec un certain nombre de fonctionnalitĆ©s disponibles. Parmi toutes celles-ci, nous…

BEREZOWSKI CƩsar

By BEREZOWSKI CƩsar

Nov 22, 2019

Mise en production d'un modĆØle de Machine Learning

Mise en production d'un modĆØle de Machine Learning

Categories: Big Data, Data Engineering, Data Science, DevOps & SRE | Tags: DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, SchƩma

ā€œLe Machine Learning en entreprise nĆ©cessite une vision globale […] du point de vue de l’ingĆ©nierie et de la plateforme de donnĆ©esā€, a expliquĆ© Justin Norman lors de son intervention sur le…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Sep 30, 2019

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark Streaming partie 4 : clustering avec Spark MLlib

Categories: Data Engineering, Data Science, Formation | Tags: Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming

Spark MLlib est une bibliothĆØque Spark d’Apache offrant des implĆ©mentations performantes de divers algorithmes d’apprentissage automatique supervisĆ©s et non supervisĆ©s. Ainsi, le framework Spark peut…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Jun 27, 2019

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Categories: Big Data, Data Engineering, DevOps & SRE | Tags: Apache Spark Streaming, DevOps, Enseignement et tutorial, Spark

L’indisponibilitĆ© des services entraĆ®ne des pertes financiĆØres pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

May 31, 2019

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Categories: Data Engineering, Formation | Tags: Apache Spark Streaming, Spark, Python, Streaming

Spark est conƧu pour traiter des donnĆ©es streaming de maniĆØre fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tĆ¢ches. Ainsi, Spark Structured…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

May 28, 2019

Spark Streaming partie 1Ā : construction de data pipelines avec Spark Structured Streaming

Spark Streaming partie 1Ā : construction de data pipelines avec Spark Structured Streaming

Categories: Data Engineering, Formation | Tags: Apache Spark Streaming, Kafka, Spark, Big Data, Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modĆØle Spark DataFrame. Le moteur Structured…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Apr 18, 2019

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Categories: Data Engineering | Tags: Thrift, JDBC, Hadoop, Hive, Spark, SQL

La nature distribuĆ©e et en-mĆ©moire du moteur de traitement Spark en fait un excellant candidat pour exposer des donnĆ©es Ć  des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Mar 25, 2019

Apache Flink : passé, présent et futur

Apache Flink : passé, présent et futur

Categories: Data Engineering | Tags: Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming

Apache Flink est une petite pĆ©pite mĆ©ritant beaucoup plus d’attention. Plongeons nous dans son passĆ©, son Ć©tat actuel et le futur vers lequel il se dirige avec les keytones et prĆ©sentations de la…

BEREZOWSKI CƩsar

By BEREZOWSKI CƩsar

Nov 5, 2018

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Categories: Big Data, Data Engineering | Tags: NiFi, Gouvernance des donnƩes, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, SchƩma

La crĆ©ation d’un Data Lake demande de la rigueur et de l’expĆ©rience. Voici plusieurs bonnes pratiques autour de l’ingestion des donnĆ©es en batch et en flux continu que nous recommandons et mettons en…

WORMS David

By WORMS David

Jun 18, 2018

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Categories: Data Engineering, DataWorks Summit 2018 | Tags: Apex, Beam, Pipeline, Flink, Spark

Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la dĆ©finition des pipelines de traitement de…

LEONARD Gauthier

By LEONARD Gauthier

May 24, 2018

Quelles nouveautés pour Apache Spark 2.3 ?

Quelles nouveautés pour Apache Spark 2.3 ?

Categories: Data Engineering, DataWorks Summit 2018 | Tags: Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming

Plongeons nous dans les nouveautĆ©s proposĆ©es par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composĆ© de recherches et d’informations issues des prĆ©sentations suivantes du DataWorks…

BEREZOWSKI CƩsar

By BEREZOWSKI CƩsar

May 23, 2018

Executer du Python dans un workflow Oozie

Executer du Python dans un workflow Oozie

Categories: Data Engineering | Tags: Oozie, Elasticsearch, Python, REST

Les workflows Oozie permettent d’utiliser plusieurs actions pour exĆ©cuter du code, cependant il peut ĆŖtre dĆ©licat d’exĆ©cuter du Python, nous allons voir comment faire. J’ai rĆ©cemment implĆ©mentĆ© un…

BEREZOWSKI CƩsar

By BEREZOWSKI CƩsar

Mar 6, 2018

Synchronisation Oracle vers Hadoop avec un CDC

Synchronisation Oracle vers Hadoop avec un CDC

Categories: Data Engineering | Tags: CDC, GoldenGate, Oracle, Hive, Sqoop, EntrepƓt de donnƩes (Data Warehouse)

Cette note rĆ©sulte d’une discussion autour de la synchronisation de donnĆ©es Ć©crites dans une base de donnĆ©es Ć  destination d’un entrepĆ“t stockĆ© dans Hadoop. Merci Ć  Claude Daub de GFI qui la rĆ©digea…

WORMS David

By WORMS David

Jul 13, 2017

EclairJS - Un peu de Spark dans les Web Apps

EclairJS - Un peu de Spark dans les Web Apps

Categories: Data Engineering, Front End | Tags: Spark, JavaScript, Jupyter

PrĆ©sentation de David Fallside, IBM. Les images sont issues des slides de prĆ©sentation. Introduction Le dĆ©veloppement d’applications Web est passĆ© d’un environnement Java vers des environnements…

WORMS David

By WORMS David

Jul 17, 2016

Diviser des fichiers HDFS en plusieurs tables Hive

Diviser des fichiers HDFS en plusieurs tables Hive

Categories: Data Engineering | Tags: Flume, Pig, HDFS, Hive, Oozie, SQL

Je vais montrer comment scinder fichier CSV stockĆ© dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…

WORMS David

By WORMS David

Sep 15, 2013

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Categories: Data Engineering | Tags: Business Intelligence, Hive, ORC, Parquet, Format de fichier

Il y a quelques jours, nous avons conduit un test dans le but de comparer diffĆ©rents format de fichiers et mĆ©thodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs Ć  HDFS…

WORMS David

By WORMS David

Mar 13, 2012

Deux Hive UDAF pour convertir une aggregation vers une map

Deux Hive UDAF pour convertir une aggregation vers une map

Categories: Data Engineering | Tags: Java, HBase, Hive, Format de fichier

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes JavaĀ : ā€œUDAFToMapā€ et ā€œUDAFToOrderedMapā€ ou vous…

WORMS David

By WORMS David

Mar 6, 2012

Canada - Morocco - France

We are a team of Open Source enthusiasts doing consulting in Big Data, Cloud, DevOps, Data Engineering, Data Science…

We provide our customers with accurate insights on how to leverage technologies to convert their use cases to projects in production, how to reduce their costs and increase the time to market.

If you enjoy reading our publications and have an interest in what we do, contact us and we will be thrilled to cooperate with you.

Support Ukrain