Apache HBase

HBase est une base de données NoSQL orientée colonne qui fait partie de l’écosystème Hadoop. C’est une base distribuée open source spécialisée dans le stockage de données volumineuses qui offre des accès avec une faible latence et une forte concurrence. Le stockage est optmisé pour donner accès aux valeurs au travers d'une clé. Les clés sont ordonnées ce qui permet d'effectuer des requêtes d'une clé vers une autre (Range Query). Les données sont écrites dans HDFS, ce qui assure la réplication. Une base HBase est composée d’un master et de workers, selon le même principe que Hadoop. Chaque worker de HBase possède un seul HRegionServer par lequel transit les données. C’est le HRegionServer qui va gérer le stockage des données au sein d’une seule machine. Les données stockées dans HBase sont encapsulées dans des HRegions qui correspondent à un set de fichiers provenant d’une même table (les HFile). Ces HRegions sont gérées par les HRegionServer. Chaque machine peut posséder une ou plusieurs HRegions.

En savoir plus: Site officiel

Articles associés

Stockage et traitement massif avec Hadoop

Catégories : Big Data, Node.js | Tags : HBase, Big Data, Node.js, REST

HBase est la base de données de type “column familly” de l’écosystème Hadoop construite sur le modèle de Google BigTable. HBase peut accueillir de très larges volumes de données (de l’ordre du tera ou…

Par WORMS David

1 nov. 2010

Deux Hive UDAF pour convertir une aggregation vers une map

Catégories : Data Engineering | Tags : Java, HBase, Hive, Format de fichier

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…

Par WORMS David

6 mars 2012

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Catégories : Data Engineering | Tags : Business Intelligence, Hive, ORC, Parquet, Format de fichier

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…

Par WORMS David

13 mars 2012

Questions essentielles sur les base de données Time Series

Catégories : Big Data | Tags : HBase, Hive, ORC, Data Science, Elasticsearch, Grafana, IOT, Druid

Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…

Par WORMS David

18 mars 2018

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Catégories : Big Data, DataWorks Summit 2018 | Tags : Omid, Phoenix, Transaction, ACID, HBase, SQL

Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…

Par HERMAND Xavier

24 mai 2018

Migration de cluster et de traitements entre Hadoop 2 et 3

Catégories : Big Data, Infrastructure | Tags : Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…

Par BAKALIAN Lucas

25 juil. 2018

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué

Catégories : Big Data, Formation | Tags : Hue, Infrastructure, Hadoop, HBase, Big Data, Déploiement

Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré…

Par WORMS David

1 déc. 2010

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Catégories : Data Engineering, Data Science | Tags : DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python

Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…

Par WORMS David

26 nov. 2019

Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin

Catégories : Big Data, Infrastructure | Tags : Maven, Hadoop, HBase, Hive, Spark, Git, Versions et évolutions, TDP, Tests unitaires

L’écosystème Hadoop a donné naissance à de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus récentes commme Kubernetes et les stockages objets compatibles S…

Par SCHOUKROUN Leo

18 déc. 2020

Apache HBase : colocation de RegionServers

Catégories : Big Data, Adaltas Summit 2021, Infrastructure | Tags : Ambari, Base de données, Infrastructure, Performance, Hadoop, HBase, Big Data, HDP, Storage

Les RegionServers sont les processus gérant le stockage et la récupération des données dans Apache HBase, la base de données non-relationnelle orientée colonne de Apache Hadoop. C’est à travers leurs…

Par BERLAND Pierre

22 févr. 2022

Découvrez Trunk Data Platform : La Distribution Big Data Open-Source par TOSIT

Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Ranger, DevOps, Hortonworks, Ansible, Hadoop, HBase, Knox, Spark, Cloudera, CDP, CDH, Open source, TDP

Depuis la fusion de Cloudera et Hortonworks, la sélection de distributions Hadoop commerciales on-prem se réduit à CDP Private Cloud. CDP est un mélange de CDH et de HDP conservant les meilleurs…

Par SCHOUKROUN Leo

14 avr. 2022