Blog

Exposition de brokers Kafka sur deux interfaces résaux

L’un des clusters sur lesquels nous travaillons est constitué de deux réseaux: – Un vlan “interne” dédié au cluster et accessible des noeuds Worker – Un vlan “data” exposé les noeuds Edge, Kafka et Master à l’extérieur du cluster Kafka est utilisé pour l’ingestion de données en entrée et la publication de données traitées en [...]

By | 2017-10-24T12:13:53+00:00 July 13th, 2017|Blog|0 Comments

Changer la couleur de la topbar d’Ambari

J'étais récemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, ...) sur HDP avec chacun son instance Ambari. L'une des questions soulevée par le client est la suivante : Nous avons besoin de pouvoir différencier visuellement les environnements lors de l'utilisation d'Ambari et le nom du cluster n'est pas suffisant, comment peut-on changer [...]

By | 2017-07-24T21:37:13+00:00 July 9th, 2017|Hack|0 Comments

MiNiFi: Scalabilité de la données & de l’intérêt de commencer petit

Ce poste fait partie de notre série sur le Dataworks Summit 2017 (ex-Hadoop Summit) Conférence d'Aldrin Piri d'Hortonworks Aldrin nous a rapidement présenté Apache NiFi puis expliqué d'où est venu MiNiFi: un agent NiFi à déployer sur en embarqué afin d'amener la donnée à pipeline d'un cluster NiFi (ex: IoT). Voici les points principaux de [...]

By | 2017-07-24T21:37:13+00:00 July 8th, 2017|Blog, Évènements|0 Comments

Administration Hadoop multitenant avancée – protection de Zookeeper

Contexte Zookeeper est un composant critique au fonctionnement d'Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège pas intelligemment, il refuse les connexions une fois le seuil atteint. Dans ce cas les composants cœur (HBase RegionServers/HDFS ZKFC) ne pourront plus initialiser une connexion [...]

By | 2017-10-23T12:44:10+00:00 July 5th, 2017|Blog|0 Comments

Hive Metastore HA with DBTokenStore: Failed to initialize master key

Cette article décrit ma petite aventure autour d'une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d'une installation sécurisée, entendre avec Kerberos, en haute disponibilité avec le stockage des delegation token dans une base de données. La version de Hive est la 1.2 packagée dans la distribution [...]

By | 2017-07-24T20:35:46+00:00 July 21st, 2016|Uncategorized|0 Comments

Apache Apex avec Apache SAMOA

Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training: Construction du modèle Holdout: tuning du paramétrage Test: précision Online Machine Learning Streaming Modèle évolutif Adaptation dynamique au nouveaux patterns de la données Changement à travers le temps (concept drift) Mise à jour du modèle Utilisation généralisée des [...]

By | 2017-07-24T20:35:56+00:00 July 17th, 2016|Évènements|0 Comments

Maitrisez vos workflows avec Apache Airflow

Présentation par Christian Trebing de BlueYonder Introduction Use case : comment traiter des données arrivant régulièrement de leurs clients ? Option 1 : utiliser le CRON uniquement des déclancheurs temporels compliqué de gérer les erreurs peu commode lors du chevauchement d'un job en cours avec le lancement du suivant Option 2 : écrire un outil de gestion des [...]

By | 2017-07-24T21:37:13+00:00 July 17th, 2016|Évènements|0 Comments

Apache Apex: l’analytique Big Data nouvelle génération

Présentation par Thomas Weise de DataTorrent (entreprise développant Apex) Introduction Apache Apex est un moteur de traitements parallélisés en mémoire, comme Flink ou Storm. Cependant, il est développé avec un intégration native d'Hadoop : Yarn est utilisé pour la gestion des ressources HDFS est utilisé pour le stockage d'état Modèle de développement applicatif Un stream est une [...]

By | 2017-07-24T21:37:13+00:00 July 17th, 2016|Évènements|0 Comments

EclairJS – Un peu de Spark dans les Web Apps

Présentation de David Fallside, IBM. Les images sont issues des slides de présentation. Introduction Le développement d'applications Web est passé d'un environnement Java vers des environnements Javascript avec NodeJS qui fournit des outils simples et riche à la fois avec NPM. EclairJS est une librairie NodeJS fournissant des binding sur une application Spark : Un RDD est [...]

By | 2017-07-24T21:37:14+00:00 July 17th, 2016|Évènements|0 Comments

Hive, Calcite et Druid

BI/OLAP est nécessaire à la visualisation interactive de flux de données: Évennements issus d'enchères en temps réel Flux d'activité utilisateur Log de téléphonie Suivi du trafic réseau Évennements de pare-feu Indicateur clé de performance (KPIs) applicatifs Solutions Traditionnelles RDBMS (Mysql..): ne passe pas l'échelle, nécessité de mise en cache mais les requêtes adhoc restent lentes [...]

By | 2017-07-24T21:37:14+00:00 July 14th, 2016|Uncategorized|0 Comments