Synchronisation de données Oracle à destination d’Hadoop

Synchronisation de données Oracle à destination d’Hadoop

Cette note résulte d’une discussion autour de la synchronisation de données écrites dans une base de données à destination d’un entrepôt stocké dans Hadoop. Merci à Claude Daub de GFI qui la rédigea et qui nous autorise à la publier.


Oracle GoldenGate

Outil de réplication des données en temps réel basé sur les logs internes
Distribué et donc officiellement supporté par Oracle
Pas d’impact sur les performances de la base de données source
Large éventail de destinaires: HDFS, Kafka, HBase, Hive, Flumes, JDBC, …

Continuent Tungsten Replicator

Tungsten consiste à activer Oracle CDC (Change Data Capture) qui récupère les changements depuis les redo logs. Il produit d’autres tables avec les changements.
Cette solution permet un traitement différé, mais passe – comme pour les triggers – par des tables intermédiaires. Après la méthode de synchro avec Hadoop est adaptable (sqoop peut suffire) ou un export CSV / import via fichier.
Intègre un service de réplication des données
+ Compatible avec plusieurs bases (Oracle, MySQL…)
+ On peut avoir des time series
+ Solution certifiée Hortonworks
+ Pas d’information sur l’impact en performance sur la source

DBVisit

Solution commerciale (cf. pièce jointe)
+ Temps réel
+ Support de plusieurs SGBDR (Oracle, MySQL)
+ Réplication bidirectionnelle possible.

Share Plex de Quest Software

Se base sur les redo logs => Concerne Oracle
Les changements identifiés sont bufférisés dans une queue JMS puis stockés dans HDFS / Hbase.
Voir https://www.youtube.com/watch?v=JuWB5HfYjJY

By | 2017-07-24T21:37:13+00:00 July 13th, 2017|Uncategorized|0 Comments

About the Author:

Leave A Comment

Time limit is exhausted. Please reload the CAPTCHA.