Blog, publications récentes

Rook via Ceph n’approvisionne pas mes Persistent Volume Claims!

L'installation de Ceph dans un cluster Kubernetes peut être automatisé par l'utilisation de Rook. Actuellement en stage chez Adaltas, j'étais en charge de participer à la configuration d'un cluster Kubernetes (k8s). Pour éviter de casser quelque chose sur notre cluster production, nous avons décidé de faire nos expérimentations via l’installation d’un cluster k8s sur 3 [...]

Par |2019-09-09T16:55:17+00:00September 9th, 2019|DevOps|0 commentaire

Utilisateurs et autorisations RBAC dans Kubernetes

Le déploiement d'un cluster Kubernetes n'est que le début de votre parcours et vous devez maintenant l'exploiter. Pour sécuriser son accès, les identités des utilisateurs doivent être déclarées avec des authentifications et des autorisations correctement paramétrés. Cet article traite de la création d'utilisateurs avec des certificats clients X.509 et de la gestion des autorisations à [...]

Par |2019-08-13T14:16:51+00:00August 7th, 2019|Conteneur, Data Gouvernance|0 commentaire

Installation de TensorFlow avec Docker

TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph: Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau de données à N dimensions (tensors) TensorFlow s'exécute sur un processeur CPU ou un processeur graphique GPU (à l'aide de CUDA®). L'architecture est flexible et hautement évolutive. Il [...]

Par |2019-08-05T20:26:48+00:00August 5th, 2019|Conteneur, Data Science, Formation|0 commentaire

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de versions majeures de logiciels “FOSS”, elle contient quelques écueils et peu de documentation. Je vais d’abord passer en revue les nouvelles fonctionnalités disponibles avec Hive 3, puis donner quelques [...]

Par |2019-07-25T22:29:14+00:00July 25th, 2019|Big Data, DataWorks Summit 2019|0 commentaire

Auto-scaling de Druid avec Kubernetes

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est inspiré de la présentation “Apache Druid Auto Scale-out/in for Streaming Data Ingestion on Kubernetes” donnée par Jinchul Kim lors du DataWorks Summit 2019 Europe à Barcelone. [...]

Activer Aladdin eToken dans Firefox sur Archlinux

Si comme moi vous êtes sur Archlinux et que vous disposez d'un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin est un dispositif cryptographique (carte à puce, token) qui stocke des certificats numériques et des clés. Il peut être utilisé pour authentifier un profil [...]

Par |2019-07-12T12:27:02+00:00July 12th, 2019|Hack|0 commentaire

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark MLlib est une bibliothèque Spark d'Apache offrant des implémentations performantes de divers algorithmes d'apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut servir de plateforme pour développer des systèmes d’apprentissage automatique. Un modèle de Machine Learning (ML) développé avec Spark MLlib peut être associé à un pipeline de streaming crée avec Spark [...]

Notes du Google Cloud Summit à Paris

Le 18 Juin avait lieu l'édition 2019 du salon annuel de Google à Paris. L'édition Parisienne de cette année a été la plus grande jusqu'à maintenant, ce qui reflète l'engagement de Google à se positionner sur le marché Français. En terme de parts de marché sur le Cloud, la Google Cloud Platform (GCP) est encore [...]

Par |2019-06-26T19:48:09+00:00June 26th, 2019|Évènements|0 commentaire

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

L'indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application streaming utilise des données du monde réel, l’incertitude est donc intrinsèque aux données arrivant dans l’application. Les tests sont essentiels pour détecter les défauts logiciels et les logiques défectueuses [...]

Par |2019-07-11T22:09:35+00:00June 19th, 2019|Big Data, Data Engineering|0 commentaire

Intégration de Druid et Hive

Nous allons dans cet article traiter de l'intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l'article Ultra-fast OLAP Analytics with Apache Hive and Druid Présentation des Outils Hive et Hive LLAP Hive est un environnement permettant l'exécution de requêtes SQL sur des données stockées dans HDFS. Hive peut configurer différents exécuteurs [...]

Par |2019-06-18T09:09:24+00:00June 13th, 2019|Big Data, Blog, Tech Radar|2 Commentaires