Blog

Auto-scaling de Druid avec Kubernetes

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est inspiré de la présentation “Apache Druid Auto Scale-out/in for Streaming Data Ingestion on Kubernetes” donnée par Jinchul Kim lors du DataWorks Summit 2019 Europe à Barcelone. [...]

Activer Aladdin eToken dans Firefox sur Archlinux

Si comme moi vous êtes sur Archlinux et que vous disposez d'un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin est un dispositif cryptographique (carte à puce, token) qui stocke des certificats numériques et des clés. Il peut être utilisé pour authentifier un profil [...]

Par |2019-07-12T12:27:02+00:00July 12th, 2019|Hack|0 commentaire

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark MLlib est une bibliothèque Spark d'Apache offrant des implémentations performantes de divers algorithmes d'apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut servir de plateforme pour développer des systèmes d’apprentissage automatique. Un modèle de Machine Learning (ML) développé avec Spark MLlib peut être associé à un pipeline de streaming crée avec Spark [...]

Notes du Google Cloud Summit à Paris

Le 18 Juin avait lieu l'édition 2019 du salon annuel de Google à Paris. L'édition Parisienne de cette année a été la plus grande jusqu'à maintenant, ce qui reflète l'engagement de Google à se positionner sur le marché Français. En terme de parts de marché sur le Cloud, la Google Cloud Platform (GCP) est encore [...]

Par |2019-06-26T19:48:09+00:00June 26th, 2019|Évènements|0 commentaire

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

L'indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application streaming utilise des données du monde réel, l’incertitude est donc intrinsèque aux données arrivant dans l’application. Les tests sont essentiels pour détecter les défauts logiciels et les logiques défectueuses [...]

Par |2019-07-11T22:09:35+00:00June 19th, 2019|Big Data, Data Engineering|0 commentaire

Intégration de Druid et Hive

Nous allons dans cet article traiter de l'intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l'article Ultra-fast OLAP Analytics with Apache Hive and Druid Présentation des Outils Hive et Hive LLAP Hive est un environnement permettant l'exécution de requêtes SQL sur des données stockées dans HDFS. Hive peut configurer différents exécuteurs [...]

Par |2019-06-18T09:09:24+00:00June 13th, 2019|Big Data, Blog, Tech Radar|2 Commentaires

Spark Streaming Partie 2 : traitement d’une pipeline Spark Structured Streaming dans Hadoop

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l'orchestration de tâches. Ainsi, Spark Structured Streaming s'intègre bien dans une infrastructure Big Data. Une chaîne de traitement des données streaming sera présentée, cette fois dans un environnement distribué. Ceci est [...]

Par |2019-07-11T22:10:21+00:00May 28th, 2019|Big Data, Data Engineering|0 commentaire

Spark Streaming partie 1: construction de data pipelines avec Spark Structured Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured Streaming partage la même API que le moteur Spark SQL. L’utilisateur ne devrait donc pas rencontrer de difficulté quant à son utilisation. L’une [...]

Par |2019-07-11T22:11:03+00:00April 18th, 2019|Big Data, Data Engineering|1 Comment