Articles publiés en 2018

Ambari - Comment utiliser les blueprints
Catégories : Big Data, DevOps & SRE | Tags : Ambari, Ranger, Automation, DevOps, Exploitation, CDH, HDP, IaC, PostgreSQL, REST
En tant qu’ingénieurs d’infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d’utiliser une distribution telle que Hortonworks HDP ou…
Par RUMMENS Joris
17 janv. 2018

Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : Oozie, Elasticsearch, Python, REST
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
Par BEREZOWSKI César
6 mars 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : Hadoop, Hive, Oozie, Sqoop, CDH, HDP, Python, REST
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
Par SCHOUKROUN Leo
23 mai 2018

Questions essentielles sur les base de données Time Series
Catégories : Big Data | Tags : Druid, HBase, Hive, ORC, Data Science, Elasticsearch, Grafana, IOT
Aujourd’hui, le gros des donn ées Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…
Par WORMS David
18 mars 2018

Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Python, Streaming
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
Par BEREZOWSKI César
23 mai 2018

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix
Catégories : Big Data, DataWorks Summit 2018 | Tags : Omid, Phoenix, Transaction, ACID, HBase, SQL
Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…
Par HERMAND Xavier
24 mai 2018

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Java, Pipeline, Flink, Spark, Traitement par lots, Python, Streaming, TCO
Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…
Par LEONARD Gauthier
24 mai 2018