Apache Hive

Articles associés

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Versions et évolutions, Hadoop

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

By LEONARD Gauthier

25 juil. 2019

Intégration de Druid et Hive

Intégration de Druid et Hive

Catégories : Big Data, Business Intelligence, Tech Radar | Tags : Druid, Hive, Analyse de données, LLAP, OLAP, SQL

Nous allons dans cet article traiter de l’intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l’article Ultra-fast OLAP Analytics with Apache Hive and Druid.…

By SAUVAGE Pierre

13 juin 2019

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Catégories : Data Engineering | Tags : Hive, Spark, Thrift, JDBC, Hadoop, SQL

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…

By RYNKIEWICZ Oskar

25 mars 2019

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Format de fichier, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Registre, Schéma, Lac de données

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

By WORMS David

18 juin 2018

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive

Catégories : Business Intelligence, DataWorks Summit 2018 | Tags : Calcite, Druid, Hive, OLAP, Versions et évolutions, SQL

Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues…

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, HDP, REST, Hadoop, CDH

Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…

By SCHOUKROUN Leo

23 mai 2018

Questions essentielles sur les base de données Time Series

Questions essentielles sur les base de données Time Series

Catégories : Big Data | Tags : Druid, Hive, ORC, Elasticsearch, Graphana, IOT, HBase

Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…

By WORMS David

19 mars 2018

MariaDB integration with Hadoop

MariaDB integration with Hadoop

Catégories : Infrastructure | Tags : Hive, Base de données, HA, MariaDB, Hadoop

Lors d’ateliers menés avec l’un de nos clients, Adaltas a levé un risque potentiel sur la stratégie utilisée pour la mise en haute disponibilité (HA) de MariaDB. Le client ayant sélectionné la…

By WORMS David

31 juil. 2017

Synchronisation Oracle vers Hadoop avec un CDC

Synchronisation Oracle vers Hadoop avec un CDC

Catégories : Data Engineering | Tags : Hive, Sqoop, CDC, GoldenGate, Oracle, Entrepôt de données (Data Warehouse)

Cette note résulte d’une discussion autour de la synchronisation de données écrites dans une base de données à destination d’un entrepôt stocké dans Hadoop. Merci à Claude Daub de GFI qui la rédigea…

By WORMS David

13 juil. 2017

Hive Metastore HA avec DBTokenStore : Failed to initialize master key

Hive Metastore HA avec DBTokenStore : Failed to initialize master key

Catégories : Big Data, DevOps & SRE | Tags : Hive, Bug, Infrastructure

Cette article décrit ma petite aventure autour d’une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d’une installation sécurisée, entendre avec…

By WORMS David

21 juil. 2016

Hive, Calcite et Druid

Hive, Calcite et Druid

Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop

BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…

By WORMS David

14 juil. 2016

Diviser des fichiers HDFS en plusieurs tables Hive

Diviser des fichiers HDFS en plusieurs tables Hive

Catégories : Data Engineering | Tags : Flume, HDFS, Hive, Oozie, Pig, SQL

Je vais montrer comment scinder fichier CSV stocké dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…

By WORMS David

15 sept. 2013

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Catégories : Data Engineering | Tags : Analytique, Hive, ORC, Parquet, Format de fichier

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…

By WORMS David

15 juil. 2012

Deux Hive UDAF pour convertir une aggregation vers une map

Deux Hive UDAF pour convertir une aggregation vers une map

Catégories : Data Engineering | Tags : Hive, Format de fichier, Java, HBase

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…

By WORMS David

6 mars 2012

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.