DataWorks Summit 2018 : Quelques jours pour parler Hadoop
L'équipe Adaltas s'est rendue au complet à la conférence DataWorks Summit 2018 qui a eu lieu à Berlin les 18 et 19 avril. A cette occasion, nous avons compilé une série d'articles sur les présentations qui nous ont les plus marquées.
Parmi les différents sujets abordés au cours de ces 2 jours, la nouvelle version 3 de Hadoop et ses sous-projets, HDFS et YARN, était probablement le plus en vogue. En outre, les différentes discussions relatives à la gouvernance de plate-formes et de Data Lakes illustrent la maturité atteinte par l'écosystème.

Articles associé à la conférence

Apache Hadoop YARN 3.0 - État de l'art
Catégories : Big Data, DataWorks Summit 2018 | Tags : YARN, GPU, Hortonworks, Hadoop, HDFS, MapReduce, Cloudera, Data Science, Docker, Versions et évolutions
Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…
Par BAKALIAN Lucas
31 mai 2018

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive
Catégories : Business Intelligence, DataWorks Summit 2018 | Tags : Calcite, Druid, Hive, OLAP, Versions et évolutions, SQL
Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues…
31 mai 2018

YARN et le calcul distribué sur GPU pour le machine learning
Catégories : Data Science, DataWorks Summit 2018 | Tags : YARN, arXiv, GPU, Grafana, MXNet, Docker, Machine Learning, Réseau de neurones, Storage, TensorFlow
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
Par JOUET Grégor
30 mai 2018

Apache Metron dans le monde réel
Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithme, NiFi, Solr, Storm, pcap, SGBDR, HDFS, Kafka, Metron, Spark, Data Science, Elasticsearch, SQL
Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…
Par HATOUM Michael
29 mai 2018

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, YARN, C++, CPU, GPU, Performance, Spark, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
Par HATI Yliess
29 mai 2018

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak
Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : Cloudbreak, HDP, Exploitation, Hadoop, AWS, Azure, GCP, OpenStack
Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…
Par RUMMENS Joris
28 mai 2018

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix
Catégories : Big Data, DataWorks Summit 2018 | Tags : Omid, Phoenix, Transaction, ACID, HBase, SQL
Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…
Par HERMAND Xavier
24 mai 2018

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Flink, Traitement par lots, Java, Pipeline, Spark, Python, Streaming, TCO
Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…
Par LEONARD Gauthier
24 mai 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Sqoop, HDP, REST, Hadoop, Oozie, CDH, Python
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
Par SCHOUKROUN Leo
23 mai 2018

Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, ORC, PySpark, Performance, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Python, Streaming
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
Par BEREZOWSKI César
23 mai 2018