Druid

Auto-scaling de Druid avec Kubernetes

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est inspiré de la présentation “Apache Druid Auto Scale-out/in for Streaming Data Ingestion on Kubernetes” donnée par Jinchul Kim lors du DataWorks Summit 2019 Europe à Barcelone. [...]

Intégration de Druid et Hive

Nous allons dans cet article traiter de l'intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l'article Ultra-fast OLAP Analytics with Apache Hive and Druid Présentation des Outils Hive et Hive LLAP Hive est un environnement permettant l'exécution de requêtes SQL sur des données stockées dans HDFS. Hive peut configurer différents exécuteurs [...]

Par |2019-06-18T09:09:24+00:00June 13th, 2019|Big Data, Blog, Tech Radar|2 Commentaires

Questions essentielles sur les base de données Time Series

Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes, véhicules connectés… IoT et Big Data font bon ménage. […]

Par |2019-02-07T15:20:18+00:00March 19th, 2018|Big Data, Data Engineering|3 Commentaires

Hive, Calcite et Druid

BI/OLAP est nécessaire à la visualisation interactive de flux de données: Évènements issus d'enchères en temps réel Flux d'activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de pare-feu Indicateur clé de performance (KPIs) applicatif Solutions Traditionnelles RDBMS (Mysql..): ne passe pas l'échelle, nécessité de mise en cache mais les requêtes adhoc restent lentes [...]

Par |2019-06-21T22:05:26+00:00July 14th, 2016|Big Data|0 commentaire