Archives mensuelles : July 2016

Hive Metastore HA with DBTokenStore: Failed to initialize master key

Cette article décrit ma petite aventure autour d'une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d'une installation sécurisée, entendre avec Kerberos, en haute disponibilité avec le stockage des delegation token dans une base de données. La version de Hive est la 1.2 packagée dans la distribution [...]

Par |2017-07-24T20:35:46+00:00July 21st, 2016|Uncategorized|0 commentaire

Apache Apex avec Apache SAMOA

Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training: Construction du modèle Holdout: tuning du paramétrage Test: précision Online Machine Learning Streaming Modèle évolutif Adaptation dynamique au nouveaux patterns de la données Changement à travers le temps (concept drift) Mise à jour du modèle Utilisation généralisée des [...]

Par |2017-07-24T20:35:56+00:00July 17th, 2016|Évènements|0 commentaire

Maitrisez vos workflows avec Apache Airflow

Présentation par Christian Trebing de BlueYonder Introduction Use case : comment traiter des données arrivant régulièrement de leurs clients ? Option 1 : utiliser le CRON uniquement des déclancheurs temporels compliqué de gérer les erreurs peu commode lors du chevauchement d'un job en cours avec le lancement du suivant Option 2 : écrire un outil de gestion des [...]

Par |2018-06-05T22:37:04+00:00July 17th, 2016|Évènements|0 commentaire

Apache Apex: l’analytique Big Data nouvelle génération

Présentation par Thomas Weise de DataTorrent (entreprise développant Apex) Introduction Apache Apex est un moteur de traitements parallélisés en mémoire, comme Flink ou Storm. Cependant, il est développé avec un intégration native d'Hadoop : Yarn est utilisé pour la gestion des ressources HDFS est utilisé pour le stockage d'état Modèle de développement applicatif Un stream est une [...]

Par |2018-06-05T22:37:05+00:00July 17th, 2016|Évènements|0 commentaire

EclairJS – Un peu de Spark dans les Web Apps

Présentation de David Fallside, IBM. Les images sont issues des slides de présentation. Introduction Le développement d'applications Web est passé d'un environnement Java vers des environnements Javascript avec NodeJS qui fournit des outils simples et riche à la fois avec NPM. EclairJS est une librairie NodeJS fournissant des binding sur une application Spark : Un RDD est [...]

Par |2018-06-05T22:37:06+00:00July 17th, 2016|Évènements|0 commentaire

Hive, Calcite et Druid

BI/OLAP est nécessaire à la visualisation interactive de flux de données: Évennements issus d'enchères en temps réel Flux d'activité utilisateur Log de téléphonie Suivi du trafic réseau Évennements de pare-feu Indicateur clé de performance (KPIs) applicatifs Solutions Traditionnelles RDBMS (Mysql..): ne passe pas l'échelle, nécessité de mise en cache mais les requêtes adhoc restent lentes [...]

Par |2018-06-05T22:37:07+00:00July 14th, 2016|Uncategorized|0 commentaire

Namespace réseau sans Docker

Imaginons le cas suivant: Je suis connecté à plusieurs réseaux (wlan0, eth0, usb0). Je veux choisir le réseau que je vais utiliser au lancement de mon application. Mon application ne permet pas de choisir une interface quand plusieurs sont disponibles. Je pourrais utiliser docker, ce dernier isole le réseau. Cependant docker isole aussi plein d'autres [...]

Par |2018-06-05T22:37:08+00:00July 6th, 2016|Blog, Hack|0 commentaire

L’offre Red Hat Storage et son intégration avec Hadoop

J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins partiellement. Je terminerai pas l’intégration entre Red Hat Storage et Hadoop, plus particulièrement ce qu’on peut en attendre avant de mener une expérimentation en [...]

Par |2018-06-05T22:37:09+00:00July 3rd, 2016|Uncategorized|0 commentaire