Apache Oozie
Articles associés

Premier pas avec Apache Airflow sur AWS
Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Airflow, Oozie, PySpark, Enseignement et tutorial, Spark, AWS, Docker, Python
Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…
5 mai 2020

Migration de cluster et de traitements entre Hadoop 2 et 3
Catégories : Big Data, Infrastructure | Tags : HDFS, Shiro, YARN, Erasure Coding, Rolling Upgrade, Spark, Docker
La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…
25 juil. 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, HDP, REST, Hadoop, CDH
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
23 mai 2018

Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : Oozie, Elasticsearch, REST, Python
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
7 mars 2018

Diviser des fichiers HDFS en plusieurs tables Hive
Catégories : Data Engineering | Tags : Flume, HDFS, Hive, Oozie, Pig, SQL
Je vais montrer comment scinder fichier CSV stocké dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…
By WORMS David
15 sept. 2013