Tous nos articles
JS monorepos en prod 3 : validation de commits et generation du changelog
Catégories : DevOps & SRE, Front End | Tags : CI/CD, Git, JavaScript, Tests unitaires, Monorepo, Node.js, Versions et évolutions
Conventional Commits introduit un format structuré pour les message de commit. Il standardise les messages entre tous les contributeurs. Cela les rend plus lisibles et plus faciles à automatiser. Il…
By WORMS David
2 févr. 2021
JS monorepos en prod 2 : gestion des versions et de la publication
Catégories : DevOps & SRE, Front End | Tags : CI/CD, Git, JavaScript, Tests unitaires, Monorepo, Node.js, Versions et évolutions
Un des grands avantages d’un monorepo est de maintenir des versions cohérentes entre les packages et d’automatiser la création des versions et la publication des packages. Cet article couvre les…
By WORMS David
11 janv. 2021
JS monorepos en prod 1 : initialization du projet
Catégories : DevOps & SRE, Front End | Tags : Git, JavaScript, Monorepo, Node.js, Versions et évolutions
Chaque projet commence par l’étape d’initialisation. Lorsque votre projet est composé de plusieurs sous-projets, il est tentant de créer un dépôt Git par sous-projet. Dans Node.js, un sous-projet se…
By WORMS David
5 janv. 2021
Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin
Catégories : Big Data, Infrastructure | Tags : Hive, Maven, Spark, Git, Tests unitaires, Hadoop, HBase, Versions et évolutions
L’écosystème Hadoop a donné naissance à de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus récentes commme Kubernetes et les stockages objets compatibles S…
18 déc. 2020
Développement accéléré de modèles avec H2O AutoML et Flow
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…
10 déc. 2020
OAuth2 et OpenID Connect pour les microservices et les applications publiques (Partie 2)
Catégories : Orchestration de conteneurs, Cybersécurité | Tags : CNCF, JSON, LDAP, Micro Services, OAuth2, OpenID Connect
En utilisant OAuth2 et OpenID Connect, il est important de comprendre comment se déroule le flux d’autorisation, qui appelle l’Authorization Server et comment stocker les tokens. De plus, les…
By WORMS David
20 nov. 2020
OAuth2 et OpenID Connect, une introduction douce et fonctionnelle (Part 1)
Catégories : Orchestration de conteneurs, Cybersécurité | Tags : CNCF, Go, JAMstack, LDAP, Kubernetes, OpenID Connect
La compréhension d’OAuth2, d’OpenID et d’OpenID Connect (OIDC), comment ils sont liés, comment les communications sont établies, comment s’architecture votre application et que faire des différents…
By WORMS David
17 nov. 2020
Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)
Catégories : Big Data, Cloud computing, Data Engineering | Tags : HDFS, NiFi, Authentification, Autorisation, Hadoop, Azure Data Lake Storage (ADLS), Azure, OAuth2
Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plate-forme Big Data on…
5 nov. 2020
Reconstruction de Hive dans HDP : patch, test et build
Catégories : Big Data, Infrastructure | Tags : Hive, Maven, Git, GitHub, Java, Tests unitaires, Versions et évolutions
La distribution HDP d’Hortonworks va bientôt être dépreciée a profit de la distribution CDP proposée par Cloudera. Un client nous a demandé d’intégrer d’une nouvelle feature de Apache Hive sur son…
6 oct. 2020
Versionnage des données et ML reproductible avec DVC et MLflow
Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Git, Databricks, Delta Lake, Machine Learning, MLflow, Storage
Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…
30 sept. 2020
Suivi d'expériences avec MLflow sur Databricks Community Edition
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Deep Learning, Databricks, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn
Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…
10 sept. 2020
Gestion des versions de vos jeux de données avec Data Version Control (DVC) et Git
Catégories : Data Science, DevOps & SRE | Tags : DevOps, Git, Infrastructure, Exploitation, SCM
L’utilisation d’un système de contrôle de version tel que Git pour le code source est une bonne pratique et une norme de l’industrie. Étant donné que les projets se concentrent de plus en plus sur les…
By JOUET Grégor
3 sept. 2020
Architecture de plugins en JavaScript et Node.js avec Plug and Play
Catégories : Front End, Node.js | Tags : Asynchrone, DevOps, JavaScript, Programmation, Agile, Open source, Versions et évolutions
Plug and Play aide les auteurs de bibliothèques et d’applications à introduire une architecture de plugins dans leur code. Il simplifie l’exécution de code complexe avec des points d’interception bien…
By WORMS David
28 août 2020
Installation d'Hadoop depuis le code source : build, patch et exécution
Catégories : Big Data, Infrastructure | Tags : HDFS, Maven, Docker, Java, LXD, Tests unitaires, Hadoop
Les distributions commerciales d’Apache Hadoop ont beaucoup évolué ces dernières années. Les deux concurrents Cloudera et Hortonworks ont fusionné : HDP ne sera plus maintenu et CDH devient CDP. HP a…
4 août 2020
Téléchargement de jeux de données dans HDFS et Hive
Catégories : Big Data, Data Engineering | Tags : Analytique, HDFS, Hive, Big Data, Analyse de données, Data Engineering, Data structures, Base de données, Hadoop, Lac de données, Entrepôt de données (Data Warehouse)
Introduction De nos jours, l’analyse de larges quantités de données devient de plus en plus possible grâce aux technologies du Big data (Hadoop, Spark,…). Cela explique l’explosion du volume de…
By NGOM Aida
31 juil. 2020
Comparaison de différents formats de fichier en Big Data
Catégories : Big Data, Data Engineering | Tags : Analytique, Avro, HDFS, Hive, Kafka, MapReduce, ORC, Spark, Traitement par lots, Big Data, CSV, Analyse de données, Data structures, Base de données, JSON, Protocol Buffers, Hadoop, Parquet, Kubernetes, XML
Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…
By NGOM Aida
23 juil. 2020
Automatisation d'un workflow Spark sur GCP avec GitLab
Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Airflow, Spark, CI/CD, Enseignement et tutorial, GitLab, GCP, Terraform
Un workflow consiste à automiatiser une succéssion de tâche qui dont être menée indépendemment d’une intervention humaine. C’est un concept important et populaire, s’appliquant particulièrement à un…
16 juin 2020
Importer ses données dans Databricks : tables externes et Delta Lake
Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…
21 mai 2020
Premier pas avec Apache Airflow sur AWS
Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Airflow, Oozie, Spark, PySpark, Docker, Enseignement et tutorial, AWS, Python
Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…
5 mai 2020
Exposer un cluster Ceph basé sur Rook à l'extérieur de Kubernetes
Catégories : Orchestration de conteneurs | Tags : Conteneur, Debug, Docker, Rook, Ceph, Kubernetes
Nous avons récemment créé un cluster Hadoop basé sur des containers LXD et nous voulions être en mesure d’appliquer des quotas sur certains filesystems (par exemple : logs de service, repertoires…
16 avr. 2020
Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas
Catégories : Business Intelligence, Cloud computing | Tags : Cloud, Lac de données, Data Science, Entrepôt de données (Data Warehouse), Snowflake
Snowflake est une plateforme d’entrepôt de données en mode SaaS qui centralise, dans le cloud, le stockage et le traitement de données structurées et semi-structurées. La génération croissante de…
7 avr. 2020
Optimisation d'applicationS Spark dans Hadoop YARN
Catégories : Data Engineering, Formation | Tags : Spark, Performance, Hadoop, Python
Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…
30 mars 2020
MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Catégories : Data Engineering, Data Science, Formation | Tags : Deep Learning, AWS, Databricks, Déploiement, Machine Learning, Azure, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…
23 mars 2020
Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask
Catégories : Data Science, Tech Radar | Tags : Deep Learning, Enseignement et tutorial, Machine Learning, Machine Learning, Python
Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…
2 mars 2020
Installer et débugger Kubernetes dans LXD
Catégories : Orchestration de conteneurs | Tags : Conteneur, Debug, Docker, Linux, LXD, Kubernetes, Noeud
Nous avons récemment déployé des clusters Kubernetes avec le besoin de collocalliser les clusters sur des noeuds physiques au sein de nos infrastructures. Nous aurions pu utiliser des machines…
4 févr. 2020
Sécurisation des services avec Open Policy Agent
Catégories : Cybersécurité, Gouvernance des données | Tags : Kafka, Ranger, Autorisation, REST, Cloud, Kubernetes, SSL/TLS
Open Policy Agent est un un moteur de règles multifonction. L’objectif principal du projet est de centraliser l’application de règles de sécurité à travers la stack cloud native. Le projet a été crée…
22 janv. 2020
Cloudera CDP et migration Cloud de votre Data Warehouse
Catégories : Big Data, Cloud computing | Tags : Cloudera, Data Hub, Lac de données, Entrepôt de données (Data Warehouse), Azure
Alors que l’un de nos clients anticipe un passage vers le Cloud et avec l’annonce récente de la disponibilité de Cloudera CDP mi-septembre lors de la conférence Strata, il semble que le moment soit…
By WORMS David
16 déc. 2019
Configuration à distance et auto-indexage des pipelines Logstash
Catégories : Data Engineering, Infrastructure | Tags : Docker, Elasticsearch, Kibana, Logstash, Log4j
Logstash est un puissant moteur de collecte de données qui s’intègre dans la suite Elastic (Elasticsearch - Logstash - Kibana). L’objectif de cet article est de montrer comment déployer un cluster…
13 déc. 2019
Migration Big Data et Data Lake vers le Cloud
Catégories : Big Data, Cloud computing | Tags : DevOps, AWS, Cloud, CDP, Databricks, GCP, Azure
Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…
9 déc. 2019
Hadoop Ozone partie 3: Stratégie de réplication avancée avec les Copyset
Catégories : Infrastructure | Tags : HDFS, Ozone, Cluster, Kubernetes, Noeud
Hadoop Ozone propose de configurer le type de réplication à chaque écriture effectué sur le cluster. Actuellement seules HDFS et Ratis sont disponibles mais des stratégies plus avancées sont…
3 déc. 2019
Hadoop Ozone partie 2: tutorial et démonstration des fonctionnalités
Catégories : Infrastructure | Tags : HDFS, CLI, Enseignement et tutorial, REST, Ozone, Amazon S3, Cluster
Les versions d’Hadoop Ozone sont livrées avec des fichiers docker-compose très pratique pour tester Ozone. Les instructions ci-dessous apportent des détails sur comment les utiliser. Il est aussi…
3 déc. 2019
Hadoop Ozone partie 1: introduction du nouveau système de fichiers
Catégories : Infrastructure | Tags : HDFS, Ozone, Cluster, Kubernetes
Hadoop Ozone est système de stockage d’objet pour Hadooop. Il est conçu pour supporter des milliards d’objets de tailles diverses. Il est actuellement en développement. La feuille de route est…
3 déc. 2019
Stage Data Science & Data Engineer - ML en production et ingestion streaming
Catégories : Data Engineering, Data Science | Tags : Flink, Kafka, Spark, DevOps, Hadoop, HBase, Kubernetes, Python
Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…
By WORMS David
26 nov. 2019
Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes
Catégories : Big Data, Orchestration de conteneurs | Tags : Kafka, Spark, DevOps, LXD, NoSQL, Hadoop, Ceph, Kubernetes
Contexte L’acquisition d’un cluster à forte capacité répond à la volonté d’Adaltas de construire une offre de type PAAS pour disposer et mettre à disposition des plateformes de Big Data et d…
By WORMS David
26 nov. 2019
Insérer des lignes dans une table BigQuery avec des colonnes complexes
Catégories : Cloud computing, Data Engineering | Tags : GCP, BigQuery, Schéma, SQL
Le service BigQuery de Google Cloud est une solution data warehouse conçue pour traiter d’énormes volumes de données avec un certain nombre de fonctionnalités disponibles. Parmi toutes celles-ci, nous…
22 nov. 2019
Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod
Catégories : Data Science | Tags : Deep Learning, GPU, Horovod, Keras, TensorFlow
L’entraînement des modèles Deep Learning peut être grandement accéléré en utilisant un cluster de GPUs. Lorsqu’il s’agit de grandes quantités de données, effectuer des calculs distribués devient…
By JOUET Grégor
15 nov. 2019
Authentification Kerberos et Spnego sur Windows avec Firefox
Catégories : Cybersécurité | Tags : Firefox, FreeIPA, HTTP, Kerberos
Dans la mythologie grecque, Kerberos, aussi appelé Cerbère, garde les portes du monde souterrain pour empêcher les morts de partir. Il est communément décrit comme un chien à trois têtes ayant une…
By WORMS David
4 nov. 2019
Notes sur le nouveau modèle de licences Open Source de Cloudera
Catégories : Big Data | Tags : CDSW, Licence, Cloudera Manager, Open source
Suite à la publication de sa stratégie de licences Open Source le 10 juillet 2019 dans un article intitulé “notre engagement envers les logiciels Open Source”, Cloudera a diffusé un webinaire hier le…
By WORMS David
25 oct. 2019
Innovation, culture projet vs culture produit en Data Science
Catégories : Data Science, Gouvernance des données | Tags : DevOps, Agile, Scrum
La Data Science porte en elle le métier de demain. Elle est étroitement liée à la compréhension du métier, des comportements et de l’intelligence qu’on tirera des données existantes. Les enjeux sont à…
By WORMS David
8 oct. 2019
Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…
30 sept. 2019
Rook via Ceph n'approvisionne pas mes Persistent Volume Claims !
Catégories : DevOps & SRE | Tags : PVC, Linux, Rook, Ubuntu, Ceph, Cluster, Kubernetes
L’installation de Ceph dans un cluster Kubernetes peut être automatisé par l’utilisation de Rook. Actuellement en stage chez Adaltas, j’étais en charge de participer à la configuration d’un cluster…
9 sept. 2019
Utilisateurs et autorisations RBAC dans Kubernetes
Catégories : Orchestration de conteneurs, Gouvernance des données | Tags : Authentification, Autorisation, Cybersécurité, RBAC, Kubernetes, SSL/TLS
Le déploiement d’un cluster Kubernetes n’est que le début de votre parcours et vous devez maintenant l’exploiter. Pour sécuriser son accès, les identités des utilisateurs doivent être déclarées avec…
7 août 2019
Installation de TensorFlow avec Docker
Catégories : Orchestration de conteneurs, Data Science, Formation | Tags : CPU, Deep Learning, Docker, Jupyter, Linux, IA, TensorFlow
TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph : Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau…
5 août 2019
Apache Hive 3, nouvelles fonctionnalités et conseils et astuces
Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Hadoop, Versions et évolutions
Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…
25 juil. 2019
Auto-scaling de Druid avec Kubernetes
Catégories : Big Data, Business Intelligence, Orchestration de conteneurs | Tags : EC2, Druid, CNCF, Orchestration de conteneurs, Analyse de données, Helm, Métriques, OLAP, Exploitation, Prometheus, Cloud, Kubernetes, Python
Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est…
16 juil. 2019
Activer Aladdin eToken dans Firefox sur Archlinux
Catégories : Hack | Tags : 2FA, Arch Linux, Cybersécurité, Firefox, sécurité, Carte à puce
Si comme moi vous êtes sur Archlinux et que vous disposez d’un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin…
12 juil. 2019
Spark Streaming partie 4 : clustering avec Spark MLlib
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Streaming, Clustering, Machine Learning, Scala
Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…
11 juil. 2019
Notes du Google Cloud Summit à Paris
Catégories : Évènements | Tags : AWS, Cloud, GCP, Kubernetes, Azure, On-premises
Le 18 Juin avait lieu l’édition 2019 du salon annuel de Google à Paris. L’édition Parisienne de cette année a été la plus grande jusqu’à maintenant, ce qui reflète l’engagement de Google à se…
26 juin 2019
Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark
Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Spark, Apache Spark Streaming, DevOps, Enseignement et tutorial
L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…
19 juin 2019
Intégration de Druid et Hive
Catégories : Big Data, Business Intelligence, Tech Radar | Tags : Druid, Hive, Analyse de données, LLAP, OLAP, SQL
Nous allons dans cet article traiter de l’intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l’article Ultra-fast OLAP Analytics with Apache Hive and Druid.…
13 juin 2019
Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop
Catégories : Data Engineering, Formation | Tags : Spark, Apache Spark Streaming, Streaming, Python
Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…
28 mai 2019
Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming
Catégories : Data Engineering, Formation | Tags : Kafka, Spark, Apache Spark Streaming, Big Data, Streaming
Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…
18 avr. 2019
Réinstaller une partition EFI sur un serveur dédié
Catégories : Hack | Tags : Infrastructure, Linux, Cloud
Nous avons récemment eu quelques difficultés avec la partition EFI d’un serveur dédié. Après un redémarrage, il n’est pas revenu en ligne. Si vous avez un serveur dédié chez votre hébergeur, vous êtes…
By JOUET Grégor
16 avr. 2019
Les fonctions de première classe en Python
Catégories : Hack, Formation | Tags : Programmation, Python
J’ai récemment regardé une conférence de Dave Cheney sur les fonctions de première classe en Go. Sachant que Python est également capable de les prendre en charge, sont-elles utilisables de la même…
15 avr. 2019
Gatbsy.js, React et GraphQL pour nos documentations
Catégories : Adaltas Summit 2018, Front End | Tags : API, Gatsby, GraphQL, HTTP, JAMstack, JavaScript, Markdown, React.js, SEO, Node.js
Au cours des derniers mois, j’ai consacrer un peu de temps à la ré-écritures de quelques sites Web pour nos projets Open Source. Ces sites incluent le projet CSV de Node.js, le client HBase pour Node…
By WORMS David
1 avr. 2019
Publier Spark SQL Dataframe et RDD avec Spark Thrift Server
Catégories : Data Engineering | Tags : Hive, Spark, Thrift, JDBC, Hadoop, SQL
La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…
25 mars 2019
Multihoming avec Hadoop
Catégories : Infrastructure | Tags : HDFS, Kerberos, Réseau, Hadoop
Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de…
5 mars 2019
Introduction à Cloudera Data Science Workbench
Catégories : Data Science | Tags : Cloudera, Docker, Git, Kubernetes, Machine Learning, Azure, Notebook
Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet…
28 févr. 2019
Apache Knox, c'est facile !
Catégories : Big Data, Cybersécurité, Adaltas Summit 2018 | Tags : Ranger, Kerberos, LDAP, Active Directory, REST, Knox
Apache Knox est le point d’entrée sécurisé d’un cluster Hadoop, mais peut-il être également le point d’entrée de mes applications REST ? Vue d’ensemble d’Apache Knox Apache Knox est une passerelle…
4 févr. 2019
Installation de Kubernetes sur CentOS 7
Catégories : Orchestration de conteneurs | Tags : CentOS, cgroups, CNCF, DevOps, Docker, Infrastructure, Namespaces, Red Hat, VM, Ceph, Kubernetes
Cet article présente la démarche à suivre afin d’installer un cluster Kubernetes. Chaque étape sera détaillée afin que ayez une compréhension approfondie de chacune d’elle. Cet article s’appuie sur ma…
29 janv. 2019
Les identités auto-souveraines
Catégories : Gouvernance des données | Tags : Authentification, Blockchain, Livre de compte (ledger), Cloud, IAM
Vers une identité numérique fiable, personnelle, persistante et portable pour tous. Problèmes d’identité numérique Les identités auto-souveraines sont une tentative de redéfinir le notion d’identité…
By MELLAL Nabil
22 janv. 2019
Apprentissage par renforcement appliqué au jeu de Poker
Catégories : Data Science | Tags : Algorithme, Deep Learning, Jeu, Q-learning, Machine Learning, Réseau de neurones, Python
Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…
9 janv. 2019
LXD : la pièce manquante
Catégories : Orchestration de conteneurs | Tags : CPU, Docker, Linux, LXD, VM, Kubernetes
LXD signifie Linux Container Daemon. Il s’agit d’une technologie de conteneur. Mais LXD est très différent. Il se distingue du peloton. Ce n’est pas nécessairement mieux ni beaucoup plus rapide ni…
28 déc. 2018
Surveillance d'un cluster Hadoop de production avec Kubernetes
Catégories : DevOps & SRE | Tags : Thrift, Docker, Elasticsearch, Graphana, Prometheus, Shinken, Hadoop, Knox, Cluster, Kubernetes, Noeud, Node.js, Python
La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui…
21 déc. 2018
CodaLab - Concours de Data Science
Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, MySQL, Machine Learning, Node.js, Python
CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…
17 déc. 2018
Les modules natifs Node.js avec N-API
Catégories : Adaltas Summit 2018, Front End | Tags : C++, JavaScript, Kerberos, NPM, Node.js
Que sont les modules natifs pour Node.js et comment les créer ? Les addons C/C++ sont une fonctionnalité utile et puissante du runtime Node.js. Explorons-les depuis leurs fonctionnement, jusqu’à leur…
12 déc. 2018
Microsoft annonce Cloud Native Application Bundles
Catégories : Orchestration de conteneurs | Tags : CLI, Docker, Helm, Packaging, Kubernetes
Lors de la DockerCon EU 2018 à Barcelone, Matt Butcher, ingénieur principal chez Microsoft et inventeur de Helm, a présenté CNAB, Cloud Native Application Bundles, un format de packaging pour…
4 déc. 2018
Jumbo, le bootstrapper de clusters Hadoop
Catégories : Infrastructure | Tags : Ansible, Ambari, Automation, HDP, REST, Cluster, Vagrant
Présentation de Jumbo, un bootstrapper de cluster Hadoop pour les développeurs. Jumbo vous aide à déployer des environnements de développement pour les technologies Big Data. Il suffit de quelques…
29 nov. 2018
Les principaux avantages de GraphQL comme alternative au REST
Catégories : Front End | Tags : API, GraphQL, gRPC, JSON, REST, Node.js, Registre
GraphQL est basé sur une idée simple, déplacer l’assemblage d’une requête du serveur vers le client. Ce dernier voit l’ensemble du schéma fortement typé au lieu d’une multitude de services REST et…
By WORMS David
27 nov. 2018
Prise de contrôle d'un cluster Hadoop avec Apache Ambari
Catégories : Big Data, DevOps & SRE, Adaltas Summit 2018 | Tags : Ambari, Automation, HDP, iptables, Kerberos, Nikita, REST, Systemd, Cluster, Noeud, Node.js
Nous avons récemment migré un large cluster Hadoop de production installé “manuellement” vers Apache Ambari. Nous avons nommé cette opération “Ambari Takeover”. C’est un processus à risque et nous…
20 nov. 2018
Node.js CSV version 4 - réécriture et performances
Catégories : Node.js | Tags : CLI, CSV, Data Engineering, Refactoring, Versions et évolutions
Nous publions aujourd’hui une nouvelle version majeure du projet CSV Parser pour Node.js. La version 4 est une réécriture complète du projet axée sur la performance. Il comporte également de nouvelles…
By WORMS David
19 nov. 2018
Gestion des identités utilisateurs sur clusters Big Data
Catégories : Cybersécurité, Gouvernance des données | Tags : Ansible, FreeIPA, Kerberos, LDAP, Active Directory, IAM
La sécurisation d’un cluster Big Data implique l’intégration ou le déploiement de services spécifiques pour stocker les utilisateurs. Certains utilisateurs sont spécifiques à un cluster lorsque d…
By WORMS David
8 nov. 2018
Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Flink, Pipeline, Streaming, Kubernetes, Machine Learning, SQL
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
5 nov. 2018
Une semaine à discuter techno isolés dans un riad Marocain
Catégories : Adaltas Summit 2018, Formation | Tags : Flink, CDSW, Deep Learning, Gatsby, React.js, Hadoop, Knox, Data Science, Kubernetes, Node.js
Adaltas organise sa première conférence entre les 22 et 26 Octobre. Au programme de ces 5 jours de conférence : discuter de technologie dans l’un des plus beau riad de Marrakech. Mélanger l’utile à l…
By WORMS David
14 oct. 2018
Nvidia et l'IA embarqué
Catégories : Data Science | Tags : Caffe, Deep Learning, Edge computing, GPU, NVIDIA, IA, Keras, PyTorch, TensorFlow
Depuis un peu plus de quatre ans, beaucoup de sociétés investissent dans l’intelligence artificielle et plus particulièrement dans le Deep Learning et le Edge Computing. Alors que la théorie avance à…
By HATI Yliess
10 oct. 2018
Déploiement d'un cluster Flink sécurisé sur Kubernetes
Catégories : Big Data | Tags : Flink, HDFS, Kafka, Elasticsearch, Chiffrement, Kerberos, SSL/TLS
Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…
By WORMS David
8 oct. 2018
Machines KVM pour Vagrant sur Archlinux
Catégories : DevOps & SRE | Tags : Arch Linux, KVM, Linux, Virtualisation, VM, Vagrant
Vagrant supporte différents providers pour gérer la virtualisation. Dans un environnement Linux, il est possible d’améliorer considérablement les performances des VMs en utilisant le provider libvirt…
19 sept. 2018
Lando : résumé de conversation en Deep Learning
Catégories : Data Science, Formation | Tags : Deep Learning, Micro Services, Open API, Kubernetes, Réseau de neurones, Node.js
Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…
By HATI Yliess
18 sept. 2018
Migration de cluster et de traitements entre Hadoop 2 et 3
Catégories : Big Data, Infrastructure | Tags : HDFS, Shiro, Spark, YARN, Docker, Erasure Coding, Rolling Upgrade
La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…
25 juil. 2018
Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop
Catégories : Data Science | Tags : Spark, YARN, Deep Learning, GPU, Hadoop, Spark MLlib, PyTorch, TensorFlow, XGBoost, MXNet
Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…
24 juil. 2018
Remède à l'aveuglement de Kafka
Catégories : Big Data | Tags : Ambari, Kafka, Ranger, Hortonworks, HDP, HDF, JMX, UI
Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…
20 juin 2018
Environnement de développement CoreOS avec Vagrant et VirtualBox
Catégories : Hack, Infrastructure | Tags : Arch Linux, CoreOS, Linux, VirtualBox, etcd, Vagrant
Suivre les instructions de CoreOS sur la façon de configurer un environnement de développement dans VirtualBox n’a pas bien fonctionné pour moi. Voici les étapes que j’ai suivies pour que Container…
20 juin 2018
Guide pour les dossiers chiffrés sur Keybase
Catégories : Cybersécurité, Hack | Tags : Autorisation, Cryptographie, Chiffrement, Système de fichiers, Keybase, PGP
Cet article est un guide sur l’utilisation des dossiers chiffrés de Keybase pour stocker et partager des fichiers. Keybase is un logiciel pour partager ses groupes, ses fichiers et ses messages. Son…
18 juin 2018
Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Lac de données, Format de fichier, Registre, Schéma
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
By WORMS David
18 juin 2018
Accélérer vos requêtes avec les vues matérialisées dans Apache Hive
Catégories : Business Intelligence, DataWorks Summit 2018 | Tags : Calcite, Druid, Hive, OLAP, Versions et évolutions, SQL
Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues…
31 mai 2018
YARN et le calcul distribué sur GPU pour le machine learning
Catégories : Data Science, DataWorks Summit 2018 | Tags : YARN, GPU, Machine Learning, Réseau de neurones, Storage
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
By JOUET Grégor
30 mai 2018
Apache Hadoop YARN 3.0 - État de l'art
Catégories : Big Data, DataWorks Summit 2018 | Tags : HDFS, MapReduce, YARN, Cloudera, Docker, GPU, Hortonworks, Hadoop, Data Science, Versions et évolutions
Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…
29 mai 2018
TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, Spark, YARN, C++, CPU, GPU, JavaScript, Performance, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
By HATI Yliess
29 mai 2018
Apache Metron dans le monde réel
Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithme, HDFS, Kafka, NiFi, Solr, Spark, Storm, Elasticsearch, pcap, SGBDR, Metron, Data Science, SQL
Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…
29 mai 2018
Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak
Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : Cloudbreak, HDP, Exploitation, Hadoop, AWS, GCP, Azure, OpenStack
Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…
28 mai 2018
Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix
Catégories : Big Data, DataWorks Summit 2018 | Tags : ACID, Omid, Phoenix, Transaction, HBase, SQL
Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…
24 mai 2018
Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Flink, Spark, Pipeline
Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…
24 mai 2018
Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, HDP, REST, Hadoop, CDH
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
23 mai 2018
Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, ORC, Spark, PySpark, Docker, Streaming, Performance, Spark MLlib, Data Science, Kubernetes, pandas
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
23 mai 2018
Questions essentielles sur les base de données Time Series
Catégories : Big Data | Tags : Druid, Hive, ORC, Elasticsearch, Graphana, IOT, HBase, Data Science
Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…
By WORMS David
19 mars 2018
Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : Oozie, Elasticsearch, REST, Python
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
7 mars 2018
Ambari - Comment utiliser les blueprints
Catégories : Big Data, DevOps & SRE | Tags : Ambari, Ranger, Automation, DevOps, Exploitation, REST
En tant qu’ingénieurs d’infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d’utiliser une distribution telle que Hortonworks HDP ou…
17 janv. 2018
Notes sur Katacoda relatives à l'orchestrateur de conteneur Kubernetes
Catégories : Orchestration de conteneurs, Formation | Tags : Helm, Ingress, Kubeadm, CNI, Micro Services, Minikube, Kubernetes
Il y a quelques semaines, j’ai consacré deux jours pour suivre les cours relatifs à la solution d’orchestration de *container Kubernetes mis à disposition sur la plateforme Katacoda. Je partage ces…
By WORMS David
8 janv. 2018
Passage à l'échelle de larges pipelines de données en temps réel avec Go
Catégories : Open Source Summit Europe 2017, Formation | Tags : Algorithme, Data structures, Go, Réseau, Pipeline, Protocols
Il y a quelques semaines, à l’Open Source Summit à Prague, Jean de Klerk a tenu une conférence intitulée “Passage à l’échelle en temps réel de pipelines de données avec Go”. Cet article passe en revue…
21 nov. 2017
Introduction à MESOS
Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Mesos, Conteneur, Orchestration de conteneurs, CUDA, Docker, GPU, Data Science
Apache Mesos est un projet Open Source de gestion de clusters pensé pour mettre en place et optimiser des systèmes distribués. Mesos permet la gestion et le partage des ressources de manière fine et…
15 nov. 2017
Micro Services
Catégories : Cloud computing, Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Mesos, CNCF, DNS, Chiffrement, gRPC, Istio, Linkerd, Micro Services, MITM, Proxy, Service Mesh, Kubernetes, SPOF, SSL/TLS
Historiquement, les applications étaient monolithiques et nous pouvions utiliser une adresse IP pour accéder à un service. Avec les machines virtuelles (VM), plusieurs hôtes commencent à apparaître…
By WORMS David
14 nov. 2017
Orchestration de conteneurs chez Facebook avec Tupperware
Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags : Zookeeper, Btrfs, LXD, Red Hat, Systemd, Cloud, Consensus
Dans cet article, je présenterai la solution d’orchestration de conteneurs mise en place par Facebook, appelée Tupperware. Qu’est-ce que Tupperware ? Tupperware est un framework fait maison écrit et…
3 nov. 2017
Intégration continue et "gating" multi-repo à grand échelle
Catégories : Cloud computing, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Ansible, CI/CD, Infrastructure, Jenkins, Red Hat, Zuul, OpenStack
Cet article est un récapitulatif avec nos impressions de la présentation de l’outil d’intégration continue d’OpenStack Zuul à la conférence Open Source Summit 2017 à Prague par Monty Taylor (à ne pas…
28 oct. 2017
Apache Thrift vs REST
Catégories : DevOps & SRE, Open Source Summit Europe 2017 | Tags : Thrift, gRPC, HTTP, JSON, REST
Adaltas a récemment assisté à l’Open Source Summit Europe 2017 à Prague. J’ai eu l’occasion de suivre une présentation faite par Randy Abernethy et Jens Geyer de RM-X, une société de conseil en cloud…
28 oct. 2017
Personne* ne met Java dans un containeur
Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags : cgroups, Docker, Java, JRE, JVM, Namespaces
Cette discussion porte sur les problèmes de mettre Java dans un conteneur et comment, dans sa dernière version 9, le JDK est maintenant plus conscient du conteneur dans lequel il s’exécute. La…
28 oct. 2017
Méthodes de stockage persistées dans Kubernetes
Catégories : Cloud computing, Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Docker, Container Storage Interface (CSI), PVC, GCE, Kubernetes, Azure, Storage
Cet article est basé sur la présentation “Introduction to Kubernetes Storage Primitives for Stateful Workloads” par the {Code} team à la conférence OSS 2017 à Prague. Commençons par qu’est-ce que…
28 oct. 2017
De Dockerfile à Ansible Containers
Catégories : Orchestration de conteneurs, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Ansible, Docker, Docker Compose, Shell, YAML
Cette présentation était une introduction au format Dockerfile et à l’outil Ansible Containers puis une comparaison des deux produits. Elle fut réalisée par Tomas Tomecek, membre de l’équipe…
25 oct. 2017
Kubernetes 1.8
Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : containerd, CRD, Réseau, OCI, RBAC, Kubernetes, Versions et évolutions
L’arrivée de Kubernetes 1.8 apporte son lot de nouveautés. Grâce à plus de 2500 pull requests, 2000 commits, avec environ 400 commiters, Kubernetes a su rajouter 39 fonctionnalités en plus à la…
24 oct. 2017
Le moteur Vespa de Yahoo
Catégories : Tech Radar | Tags : Base de données, Elasticsearch, Search Engine, Tools
Vespa est le moteur de services et de traitements big data complètement autonome et autosuffisant de Yahoo. Il a pour but de servir les résultats de requêtes sur d’énorme quantité de données en temps…
16 oct. 2017
Cloudera Sessions Paris 2017
Catégories : Big Data, Évènements | Tags : EC2, Cloudera, Altus, CDSW, SDX, PaaS, CDH, Data Science, Azure
Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…
16 oct. 2017
MariaDB integration with Hadoop
Catégories : Infrastructure | Tags : Hive, Base de données, HA, MariaDB, Hadoop
Lors d’ateliers menés avec l’un de nos clients, Adaltas a levé un risque potentiel sur la stratégie utilisée pour la mise en haute disponibilité (HA) de MariaDB. Le client ayant sélectionné la…
By WORMS David
31 juil. 2017
Exposition de brokers Kafka sur deux interfaces réseaux
Catégories : Infrastructure | Tags : Kafka, Cloudera, Cybersécurité, Réseau, VLAN, CDH
Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…
22 juil. 2017
Synchronisation Oracle vers Hadoop avec un CDC
Catégories : Data Engineering | Tags : Hive, Sqoop, CDC, GoldenGate, Oracle, Entrepôt de données (Data Warehouse)
Cette note résulte d’une discussion autour de la synchronisation de données écrites dans une base de données à destination d’un entrepôt stocké dans Hadoop. Merci à Claude Daub de GFI qui la rédigea…
By WORMS David
13 juil. 2017
Changer la couleur de la topbar d'Ambari
Catégories : Big Data, Hack | Tags : Ambari, Front-end
J’étais récemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, …) sur HDP avec chacun son instance Ambari. L’une des questions soulevée par le client est la suivante…
9 juil. 2017
MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, Cloudera, C++, HDP, HDF, IOT
Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…
8 juil. 2017
Administration Hadoop multitenant avancée - protection de Zookeeper
Catégories : Big Data, Infrastructure | Tags : Zookeeper, DoS, iptables, Exploitation, Passage à l'échelle, Clustering, Consensus
Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…
5 juil. 2017
Supervision de clusters HDP
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Alert, Ambari, HDP, Métriques, Supervision, REST
Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…
5 juil. 2017
Hive Metastore HA avec DBTokenStore : Failed to initialize master key
Catégories : Big Data, DevOps & SRE | Tags : Hive, Bug, Infrastructure
Cette article décrit ma petite aventure autour d’une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d’une installation sécurisée, entendre avec…
By WORMS David
21 juil. 2016
EclairJS - Un peu de Spark dans les Web Apps
Catégories : Data Engineering, Front End | Tags : Spark, JavaScript, Jupyter
Présentation de David Fallside, IBM. Les images sont issues des slides de présentation. Introduction Le développement d’applications Web est passé d’un environnement Java vers des environnements…
By WORMS David
17 juil. 2016
Apache Apex avec Apache SAMOA
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Samoa, Storm, Tools, Hadoop, Machine Learning
Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training : Construction du modèle Holdout : tuning du paramétrage Test : précision…
17 juil. 2016
Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Kafka, Storm, Tools, Hadoop, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
17 juil. 2016
Maitrisez vos workflows avec Apache Airflow
Catégories : Big Data, Tech Radar | Tags : Airflow, DevOps, Cloud, Python
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…
17 juil. 2016
Hive, Calcite et Druid
Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop
BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…
By WORMS David
14 juil. 2016
Namespace réseau sans Docker
Catégories : Hack | Tags : DNS, Docker, Linux, Namespaces, Réseau, VLAN
Imaginons le cas suivant : Je suis connecté à plusieurs réseaux (wlan0, eth0, usb0). Je veux choisir le réseau que je vais utiliser au lancement de mon application. Mon application ne permet pas de…
6 juil. 2016
L'offre Red Hat Storage et son intégration avec Hadoop
Catégories : Big Data | Tags : HDFS, GlusterFS, Red Hat, Hadoop, Storage
J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins…
By WORMS David
3 juil. 2015
Un middleware pour connect simple pour transpiler des fichiers CoffeeScript
Catégories : Hack, Node.js | Tags : CoffeeScript, Tools, Node.js
Ce nouveau module appelé connect-coffee-script est un middleware Connect utilisé pour servir les fichiers JavaScript écrits en CoffeeScript. Ce middleware doit être utilisé par connect ou tout…
By WORMS David
4 juil. 2014
Diviser des fichiers HDFS en plusieurs tables Hive
Catégories : Data Engineering | Tags : Flume, HDFS, Hive, Oozie, Pig, SQL
Je vais montrer comment scinder fichier CSV stocké dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…
By WORMS David
15 sept. 2013
Traverser des arrays en mode asynchronisé dans Node.js avec Each
Catégories : Node.js | Tags : Asynchrone, CoffeeScript, JavaScript, Versions et évolutions
Les librairies en Node.js permettant de gérer et simplifier les appels asynchrones sont légions. Voici le genre de librairies que chacun écrit pour lui et éventuellement publie. Elles ont pour but de…
By WORMS David
29 juil. 2012
Node CSV version 0.2.1
Catégories : Node.js | Tags : CoffeeScript, CSV, Streaming, Versions et évolutions
Faisant suite à l’annonce de la version 0.2.0 du parser CSV pour Node.js début octobre, aujourd’hui sort la nouvelle version 0.2.1. Il s’agit essentiellement d’une distribution corrigeant des bugs…
By WORMS David
26 juil. 2012
E-commerce cigarettes électroniques : impressions sur Prestashop
Catégories : Tech Radar | Tags : HTML, Java, Node.js
L’année dernière, il m’a fallu choisir et intégrer une solution e-commerce pour le site de vente de cigarettes électroniques CigarHit. Etant donné que ma dernière intégration d’un site e-commerce…
By WORMS David
23 juil. 2012
Stockage HDFS et Hive - comparaison des formats de fichiers et compressions
Catégories : Data Engineering | Tags : Analytique, Hive, ORC, Parquet, Format de fichier
Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…
By WORMS David
15 juil. 2012
Installation de PostgreSQL et Madlib sur OSX
Catégories : Data Science | Tags : Base de données, Greenplum, Statistiques, PostgreSQL, SQL
Nous couvrons l’installation et l’utilisation de PostgreSQL et de MADlib sur OSX et Ubuntu. Les instructions pour les autres environnements doivent être similaires. PostgreSQL est une base de données…
By WORMS David
7 juil. 2012
Notes sur le rapport Gallois par une entreprise informatique
Catégories : Tech Radar | Tags : Big Data, Gouvernance des données, Loi
Dans le cadre de la lecture du rapport Gallois rendu publique hier, j’ai conservé quelques notes qui après recompilation sont publiées en ligne. On peut certes regretter le manque de mention sur le…
By WORMS David
6 juil. 2012
Node CSV version 0.2 incluant le support de l'API streaming
Catégories : Node.js | Tags : CSV, Markdown, Streaming, Node.js
Annoncé en Août, le parser CSV pour Node.js dans sa version 0.2 est sorti hier. Cette version est une mise à jour majeure dans le sens ou elle aligne l’API de la librairie avec les meilleures…
By WORMS David
3 juil. 2012
Deux Hive UDAF pour convertir une aggregation vers une map
Catégories : Data Engineering | Tags : Hive, Java, HBase, Format de fichier
Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…
By WORMS David
6 mars 2012
Un regard neuf sur les tests de projets Node.js : Mocha, Should et Travis
Catégories : DevOps & SRE, Node.js | Tags : DevOps, JavaScript, Mocha, Tests unitaires, Node.js
Suite à une demande, l’article ci-dessous est la traduction d’un précédent publié le 19 février 2012. Aujourd’hui, j’ai finalement décidé de passer un peu de temps autour de Travis. Cette petite image…
By WORMS David
3 mars 2012
Java versus JS, citation de la mailing list de Node.js
Catégories : Node.js | Tags : Java, JavaScript, Node.js
Je viens de lire celui-ci sur la mailing list de Node.js. J’ai trouvé l’échange pertinent, suffisamment pour le partager avec ceux qui n’auraient pas souscrit a la mailing list : Tout d’abord Lothar…
By WORMS David
23 févr. 2012
Coffee script, comment mettre la main sur cette ligne ?
Catégories : Hack, Node.js | Tags : CoffeeScript, Debug, JavaScript, Node.js
Mise à jour du 12 avril 2012 : Pull Request ajoutant un un mappage aux rapports d’erreur CoffeeScript Il est probable que, si vous codez en CoffeeScript, vous vous retrouvez souvent face à une…
By WORMS David
15 févr. 2012
Lancement de Mecano, fonctions pour le déploiement de systèmes
Catégories : DevOps & SRE, Node.js | Tags : Automation, CoffeeScript, Infrastructure, JavaScript, Open source
Mis à jour en juillet 2016, Mecano est désormais renommé Nikita. Nous publions Node Mecano sur GitHub, qui regroupent des fonctions communes utilisées lors du déploiement de systèmes. L’idée était de…
By WORMS David
12 févr. 2012
Node CSV parser à la rescousse
Catégories : Hack | Tags : Bash, CSV, Hack, Node.js
Vendredi dernier, une heure avant la fermeture des portes de mon client pour le week-end, un collègue est venu me voir. Il vient juste de finir d’exporter 9 fichiers CSV à partir d’une base de données…
By WORMS David
13 déc. 2011
Node.js intégré à la plateforme cloud Microsoft Azure
Catégories : Cloud computing, Tech Radar | Tags : Linux, Cloud, Azure, Node.js
Node est désormais un citoyen de premier ordre dans l’environnement cloud de Microsoft Azure au côté de .Net, Java et PHP. Cette intégration est la conséquence logique de l’implication de Microsoft…
By WORMS David
11 déc. 2011
Chef : configuration et deploiement automatisé de Clusters
Catégories : DevOps & SRE, Infrastructure | Tags : Automation, Chef, Enseignement et tutorial, Puppet, Hadoop, Déploiement
L’installation d’un cluster de plusieurs machines est consommateur de temps. La même procédure de mise en place des logiciels et de leurs paramétrages doit être répétée à l’identique. Au cours du…
By WORMS David
10 déc. 2010
Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué
Catégories : Big Data, Formation | Tags : Big Data, Hue, Infrastructure, Hadoop, HBase, Déploiement
Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré…
By WORMS David
1 déc. 2010
Stockage et traitement massif avec Hadoop
Catégories : Big Data | Tags : HDFS, Hadoop, Storage
Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés…
By WORMS David
26 nov. 2010
Stockage et traitement massif avec Hadoop
Catégories : Big Data, Node.js | Tags : Big Data, REST, HBase, Node.js
HBase est la base de données de type “column familly” de l’écosystème Hadoop construite sur le modèle de Google BigTable. HBase peut accueillir de très larges volumes de données (de l’ordre du tera ou…
By WORMS David
1 nov. 2010
Présentation de MapReduce
Catégories : Big Data | Tags : MapReduce, Big Data, Java, JavaScript
Les systèmes d’information ont de plus en plus de données à stocker et à traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien d’autre stockent des quantités d’information…
By WORMS David
26 juin 2010
Node.js, JavaScript côté serveur
Catégories : Front End, Node.js | Tags : HTTP, JavaScript, Serveur, Node.js
En attente du prochain grand language (NBL pour Next Big Language), cela fait maintenant 3 ans que je prédis à mes clients un bel avenir au JavaScript comme langue de programmation pour les…
By WORMS David
12 juin 2010