Apache Hive
Articles associés
Apache Hive 3, nouvelles fonctionnalités et conseils et astuces
Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Versions et évolutions, Hadoop
Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…
25 juil. 2019
Intégration de Druid et Hive
Catégories : Big Data, Business Intelligence, Tech Radar | Tags : Druid, Hive, Analyse de données, LLAP, OLAP, SQL
Nous allons dans cet article traiter de l’intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l’article Ultra-fast OLAP Analytics with Apache Hive and Druid.…
13 juin 2019
Publier Spark SQL Dataframe et RDD avec Spark Thrift Server
Catégories : Data Engineering | Tags : Hive, Spark, Thrift, JDBC, Hadoop, SQL
La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…
25 mars 2019
Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Format de fichier, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Registre, Schéma, Lac de données
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
By WORMS David
18 juin 2018
Accélérer vos requêtes avec les vues matérialisées dans Apache Hive
Catégories : Business Intelligence, DataWorks Summit 2018 | Tags : Calcite, Druid, Hive, OLAP, Versions et évolutions, SQL
Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues…
31 mai 2018
Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, HDP, REST, Hadoop, CDH
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
23 mai 2018
Questions essentielles sur les base de données Time Series
Catégories : Big Data | Tags : Druid, Hive, ORC, Elasticsearch, Graphana, IOT, HBase
Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…
By WORMS David
19 mars 2018
MariaDB integration with Hadoop
Catégories : Infrastructure | Tags : Hive, Base de données, HA, MariaDB, Hadoop
Lors d’ateliers menés avec l’un de nos clients, Adaltas a levé un risque potentiel sur la stratégie utilisée pour la mise en haute disponibilité (HA) de MariaDB. Le client ayant sélectionné la…
By WORMS David
31 juil. 2017
Synchronisation Oracle vers Hadoop avec un CDC
Catégories : Data Engineering | Tags : Hive, Sqoop, CDC, GoldenGate, Oracle, Entrepôt de données (Data Warehouse)
Cette note résulte d’une discussion autour de la synchronisation de données écrites dans une base de données à destination d’un entrepôt stocké dans Hadoop. Merci à Claude Daub de GFI qui la rédigea…
By WORMS David
13 juil. 2017
Hive Metastore HA avec DBTokenStore : Failed to initialize master key
Catégories : Big Data, DevOps & SRE | Tags : Hive, Bug, Infrastructure
Cette article décrit ma petite aventure autour d’une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d’une installation sécurisée, entendre avec…
By WORMS David
21 juil. 2016
Hive, Calcite et Druid
Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop
BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…
By WORMS David
14 juil. 2016
Diviser des fichiers HDFS en plusieurs tables Hive
Catégories : Data Engineering | Tags : Flume, HDFS, Hive, Oozie, Pig, SQL
Je vais montrer comment scinder fichier CSV stocké dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…
By WORMS David
15 sept. 2013
Stockage HDFS et Hive - comparaison des formats de fichiers et compressions
Catégories : Data Engineering | Tags : Analytique, Hive, ORC, Parquet, Format de fichier
Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…
By WORMS David
15 juil. 2012
Deux Hive UDAF pour convertir une aggregation vers une map
Catégories : Data Engineering | Tags : Hive, Format de fichier, Java, HBase
Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…
By WORMS David
6 mars 2012