MariaDB integration with Hadoop

MariaDB integration with Hadoop

Lors d’ateliers menés avec l’un de nos clients, Adaltas a levé un risque potentiel sur la stratégie utilisée pour la mise en haute disponibilité (HA) de MariaDB.

Le client ayant sélectionné la distribution CDH 5 de Cloudera, le raisonnement ci-desous part de la documentation officielle de Cloudera. Toutefois, il s’applique à toutes les distributions Hadoop dont celle d’Hortonworks.

Cloudera répertorie les différentes bases de données supportées en HA sur son site Internet :
https://www.cloudera.com/documentation/enterprise/5-6-x/topics/admin_cm_ha_dbms.html
et, dans le cas de MariaDB, redirige l’utilisateur vers la documentation relative à la réplication:
https://mariadb.com/kb/en/mariadb/setting-up-replication/

Cette dernière documentation reflète l’ancienne stratégie de réplication. Récemment, la version 10.0 de MariaDB introduit une stratégie de réplication basée sur les IDs de transaction global (GTID, global transaction IDs):
https://mariadb.com/kb/en/global-transaction-id/

Une hypothèse est que la documentation de Cloudera ne reflète pas les dernières évolutions de MariaDB. Toutefois, Cloudera stipule explicitement que le mode de réplication GTID n’est pas supporté dans le cas de Mysql : “Cloudera Manager installation fails if GTID-based replication is enabled in MySQL”. En contrepartie, la documentation de MariaDB précise que leur implémentation de GTID n’est pas identique à celle de MySQL: “Note that MariaDB and MySQL have different GTID implementations, and that these are not compatible with each other”.

Il demeure donc un doute quand à la compatibilité des composants déployés par Cloudera vers MariaDB configuré avec GTID.

Du côté de la communauté et des documentations Hortonworks, nous n’avons pas pu identifier d’informations complémentaires. Hortonworks confirme ne pas supporter GTID dans MySQL sans mentionner MariaDB ni fournir plus d’indication:
https://community.hortonworks.com/questions/2172/hive-metastore-ha-mysql-replication-for-failover-p.html

Actions possibles:

  • mettre en place une installation pour valider l’intégration, sous réserve de validation, il en restera un doute quand la stabilité en exploitation ;
  • faire remonter la question au support Cloudera dans le but d’obtenir une réponse officielle.
By | 2017-07-24T21:37:13+00:00 July 31st, 2017|Uncategorized|0 Comments

About the Author:

Passionné de programmation, de données et d'entrepreneuriat, je participe à façonner Adaltas pour qu'elle soit une équipe d'ingénieurs talentueux partageant leurs savoir-faire et leurs expériences.

Leave A Comment

Time limit is exhausted. Please reload the CAPTCHA.