Hive

Intégration de Druid et Hive

Nous allons dans cet article traiter de l'intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l'article Ultra-fast OLAP Analytics with Apache Hive and Druid Présentation des Outils Hive et Hive LLAP Hive est un environnement permettant l'exécution de requêtes SQL sur des données stockées dans HDFS. Hive peut configurer différents exécuteurs [...]

Par |2019-06-18T09:09:24+00:00June 13th, 2019|Big Data, Blog, Tech Radar|2 Commentaires

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks, les studios de BI, les outils de rapport basés sur les indicateurs de performance clés (KPIs) parlent souvent les protocoles JDBC/ODBC et sont de [...]

Par |2019-03-25T14:54:08+00:00March 25th, 2019|Big Data, Data Engineering|0 commentaire

Migration de cluster et de traitements entre Hadoop 2 et 3

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et apporter de nouvelles opportunités, comment vos traitements actuels sont-ils impactés, quelle stratégie de migration est la plus appropriée pour votre entreprise ? […]

Par |2019-02-08T10:25:26+00:00July 25th, 2018|Big Data|0 commentaire

Ingestion de Data Lake, quelques bonnes pratiques

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en place lorsque nous accompagnons nos clients. […]

Par |2019-02-07T18:45:01+00:00June 18th, 2018|Data Engineering, DevOps|0 commentaire

Questions essentielles sur les base de données Time Series

Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes, véhicules connectés… IoT et Big Data font bon ménage. […]

Par |2019-02-07T15:20:18+00:00March 19th, 2018|Big Data, Data Engineering|3 Commentaires

Hive Metastore HA avec DBTokenStore: “Failed to initialize master key”

Cette article décrit ma petite aventure autour d'une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d'une installation sécurisée, entendre avec Kerberos, en haute disponibilité avec le stockage des delegation token dans une base de données. La version de Hive est la 1.2 packagée dans la distribution [...]

Par |2019-06-18T21:53:43+00:00July 21st, 2016|Big Data, DevOps|0 commentaire

Hive, Calcite et Druid

BI/OLAP est nécessaire à la visualisation interactive de flux de données: Évènements issus d'enchères en temps réel Flux d'activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de pare-feu Indicateur clé de performance (KPIs) applicatif Solutions Traditionnelles RDBMS (Mysql..): ne passe pas l'échelle, nécessité de mise en cache mais les requêtes adhoc restent lentes [...]

Par |2019-06-21T22:05:26+00:00July 14th, 2016|Big Data|0 commentaire

Stockage HDFS et Hive – comparaison entre les formats de fichiers et les méthodes de compression

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS et s’appliquent à tous les utilisateurs d’Hadoop. La suite de tests est composée de requête Hive toutes similaires qui créent une [...]

Par |2019-06-25T10:33:54+00:00July 15th, 2012|Data Engineering|0 commentaire

Deux Hive UDAF pour convertir une aggregation vers une map

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java: "UDAFToMap" et "UDAFToOrderedMap" ou vous pouvez télécharger le fichier jar. La première fonction convertit une agrégation en une map et utilise en interne un HashMap Java. La deuxième [...]

Par |2019-06-25T10:25:42+00:00March 6th, 2012|Data Engineering|0 commentaire