Archives mensuelles : May 2018

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive

Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues matérialisées. Cet article va décrire le principe général de cette fonctionnalité, donner quelques exemples et les améliorations prévues dans la roadmap du projet. […]

YARN et la distribution de GPU pour le machine learning

Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour executer ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de ressource tel que YARN peut s’avérer utile dans ce contexte et comment il peut aider des algorithmes à s’executer sereinement. Cet article s’inspire d’une conférence du DataWork [...]

Par |2018-06-07T10:25:04+00:00May 30th, 2018|Data Science, DataWorks Summit 2018|1 Comment

Apache Metron dans le monde réel

Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions – EMEA + APAC chez Hortonworks au Dataworks Summit 2018 (Berlin). Elle a pour objectif de démontrer les usages et les capacités d’Apache Metron dans le monde réel. [...]

Apache Hadoop YARN 3.0 – État de l’art

Cet article couvre la présentation “Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop Summit). […]

Exécuter des workloads d’entreprise dans le Cloud avec Cloudbreak

Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement automatique d’Hortonworks pour le Cloud: Cloudbreak, décrira et commentera certaines fonctionnalités expliquées par Peter et Richard, et donnera des recommandations personnelles sur quand et pourquoi [...]

Par |2018-06-06T09:15:51+00:00May 28th, 2018|Big Data, DataWorks Summit 2018|1 Comment

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés / valeurs NoSQL. […]

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de données. […]

Le futur de l’orchestration de workflows dans Hadoop: Oozie 5.x

Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister a une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir dans la branche 5.X. Elle détaille ainsi le Workflow Scheduler d’Apache Ambari et son utilisation pour créer et visualiser des workflows Apache Oozie. [...]

Par |2018-06-05T22:36:38+00:00May 23rd, 2018|Big Data, DataWorks Summit 2018|1 Comment