Tous nos articles

Insérer des lignes dans une table BigQuery avec des colonnes complexes

Insérer des lignes dans une table BigQuery avec des colonnes complexes

Catégories : Cloud computing, Data Engineering | Tags : Schéma, GCP, BigQuery, SQL

Le service BigQuery de Google Cloud est une solution data warehouse conçue pour traiter d’énormes volumes de données avec un certain nombre de fonctionnalités disponibles. Parmi toutes celles-ci, nous…

By BEREZOWSKI César

22 nov. 2019

Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod

Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod

Catégories : Data Science | Tags : Deep Learning, GPU, Keras, TensorFlow, Horovod

L’entraînement des modèles Deep Learning peut être grandement accéléré en utilisant un cluster de GPUs. Lorsqu’il s’agit de grandes quantités de données, effectuer des calculs distribués devient…

By JOUET Grégor

15 nov. 2019

Authentification Kerberos et Spnego sur Windows avec Firefox

Authentification Kerberos et Spnego sur Windows avec Firefox

Catégories : Cybersécurité | Tags : Firefox, FreeIPA, HTTP, Kerberos

Dans la mythologie grecque, Kerberos, aussi appelé Cerbère, garde les portes du monde souterrain pour empêcher les morts de partir. Il est communément décrit comme un chien à trois têtes ayant une…

By WORMS David

4 nov. 2019

Notes sur le nouveau modèle de licences Open Source de Cloudera

Notes sur le nouveau modèle de licences Open Source de Cloudera

Catégories : Big Data | Tags : CDSW, Licence, Open source, Cloudera Manager

Suite à la publication de sa stratégie de licences Open Source le 10 juillet 2019 dans un article intitulé “notre engagement envers les logiciels Open Source”, Cloudera a diffusé un webinaire hier le…

By WORMS David

25 oct. 2019

Innovation, culture projet vs culture produit en Data Science

Innovation, culture projet vs culture produit en Data Science

Catégories : Data Science, Gouvernance des données | Tags : DevOps, Agile, Scrum

La Data Science porte en elle le métier de demain. Elle est étroitement liée à la compréhension du métier, des comportements et de l’intelligence qu’on tirera des données existantes. Les enjeux sont à…

By WORMS David

8 oct. 2019

Mise en production d'un modèle de Machine Learning

Mise en production d'un modèle de Machine Learning

Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : IA, Cloud, DevOps, Machine Learning, On-premise, Exploitation, Schéma

“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…

By RYNKIEWICZ Oskar

30 sept. 2019

Rook via Ceph n'approvisionne pas mes Persistent Volume Claims !

Rook via Ceph n'approvisionne pas mes Persistent Volume Claims !

Catégories : DevOps & SRE | Tags : Kubernetes, PVC, Linux, Rook, Ubuntu, Ceph

L’installation de Ceph dans un cluster Kubernetes peut être automatisé par l’utilisation de Rook. Actuellement en stage chez Adaltas, j’étais en charge de participer à la configuration d’un cluster…

By CHOJNOWSKI Eyal

9 sept. 2019

Utilisateurs et autorisations RBAC dans Kubernetes

Utilisateurs et autorisations RBAC dans Kubernetes

Catégories : Orchestration de conteneurs, Gouvernance des données | Tags : Authentification, Autorisation, Cybersécurité, Kubernetes, RBAC, SSL/TLS

Le déploiement d’un cluster Kubernetes n’est que le début de votre parcours et vous devez maintenant l’exploiter. Pour sécuriser son accès, les identités des utilisateurs doivent être déclarées avec…

By SOARES Robert Walid

7 août 2019

Installation de TensorFlow avec Docker

Installation de TensorFlow avec Docker

Catégories : Orchestration de conteneurs, Data Science, Formation | Tags : IA, CPU, Deep Learning, Docker, Jupyter, Linux, TensorFlow

TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph : Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau…

By SAUVAGE Pierre

5 août 2019

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, Cloudera, Data Warehouse, JDBC, LLAP, Active Directory, Versions et évolutions, Hadoop

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

By LEONARD Gauthier

25 juil. 2019

Auto-scaling de Druid avec Kubernetes

Auto-scaling de Druid avec Kubernetes

Catégories : Big Data, Business Intelligence, Orchestration de conteneurs | Tags : EC2, Druid, Cloud, CNCF, Orchestration de conteneurs, Analyse de données, Helm, Kubernetes, Métriques, OLAP, Exploitation, Prometheus, Python

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est…

By SCHOUKROUN Leo

16 juil. 2019

Activer Aladdin eToken dans Firefox sur Archlinux

Activer Aladdin eToken dans Firefox sur Archlinux

Catégories : Hack | Tags : 2FA, Arch Linux, Cybersécurité, Firefox, sécurité, Carte à puce

Si comme moi vous êtes sur Archlinux et que vous disposez d’un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin…

By BEREZOWSKI César

12 juil. 2019

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark Streaming partie 4 : clustering avec Spark MLlib

Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Partitionnement, Machine Learning, Scala, Streaming

Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…

By RYNKIEWICZ Oskar

11 juil. 2019

Notes du Google Cloud Summit à Paris

Notes du Google Cloud Summit à Paris

Catégories : Évènements | Tags : AWS, Cloud, Kubernetes, Azure, On-premise, GCP

Le 18 Juin avait lieu l’édition 2019 du salon annuel de Google à Paris. L’édition Parisienne de cette année a été la plus grande jusqu’à maintenant, ce qui reflète l’engagement de Google à se…

By SAHNOUNI Tariq

26 juin 2019

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Spark, Apache Spark Streaming, DevOps, Enseignement et tutorial

L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…

By RYNKIEWICZ Oskar

19 juin 2019

Intégration de Druid et Hive

Intégration de Druid et Hive

Catégories : Big Data, Business Intelligence, Tech Radar | Tags : Druid, Hive, Analyse de données, Enseignement et tutorial, LLAP, OLAP, SQL

Nous allons dans cet article traiter de l’intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l’article Ultra-fast OLAP Analytics with Apache Hive and Druid.…

By SAUVAGE Pierre

13 juin 2019

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Catégories : Data Engineering, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Python, Streaming, Hadoop

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…

By RYNKIEWICZ Oskar

28 mai 2019

Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming

Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming

Catégories : Data Engineering, Formation | Tags : Kafka, Spark, Apache Spark Streaming, Big Data, Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…

By RYNKIEWICZ Oskar

18 avr. 2019

Réinstaller une partition EFI sur un serveur dédié

Réinstaller une partition EFI sur un serveur dédié

Catégories : Hack | Tags : Cloud, Infrastructure, Linux

Nous avons récemment eu quelques difficultés avec la partition EFI d’un serveur dédié. Après un redémarrage, il n’est pas revenu en ligne. Si vous avez un serveur dédié chez votre hébergeur, vous êtes…

By JOUET Grégor

16 avr. 2019

Les fonctions de première classe en Python

Les fonctions de première classe en Python

Catégories : Hack, Formation | Tags : Programmation, Python

J’ai récemment regardé une conférence de Dave Cheney sur les fonctions de première classe en Go. Sachant que Python est également capable de les prendre en charge, sont-elles utilisables de la même…

By BUSSER Arthur

15 avr. 2019

Gatbsy.js, React et GraphQL pour nos documentations

Gatbsy.js, React et GraphQL pour nos documentations

Catégories : Adaltas Summit 2018, Front End | Tags : API, Gatsby, GraphQL, HTTP, JAMstack, JavaScript, Markdown, Node.js, React.js, SEO

Au cours des derniers mois, j’ai consacrer un peu de temps à la ré-écritures de quelques sites Web pour nos projets Open Source. Ces sites incluent le projet CSV de Node.js, le client HBase pour Node…

By WORMS David

1 avr. 2019

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Catégories : Data Engineering | Tags : Hive, Spark, Thrift, JDBC, Hadoop, SQL

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…

By RYNKIEWICZ Oskar

25 mars 2019

Multihoming avec Hadoop

Multihoming avec Hadoop

Catégories : Infrastructure | Tags : HDFS, Kerberos, Réseau, Hadoop

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de…

By RUMMENS Joris

5 mars 2019

Introduction à Cloudera Data Science Workbench

Introduction à Cloudera Data Science Workbench

Catégories : Data Science | Tags : Cloud, Cloudera, Docker, Git, Kubernetes, Machine Learning, Azure, Notebook, Performance

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet…

By ELALAMI Mehdi

28 févr. 2019

Apache Knox, c'est facile !

Apache Knox, c'est facile !

Catégories : Big Data, Cybersécurité, Adaltas Summit 2018 | Tags : Ambari, Hive, Knox, Ranger, Shiro, Solr, JDBC, Kerberos, LDAP, Active Directory, REST, SSL/TLS, Hadoop, SSO

Apache Knox est le point d’entrée sécurisé d’un cluster Hadoop, mais peut-il être également le point d’entrée de mes applications REST ? Vue d’ensemble d’Apache Knox Apache Knox est une passerelle…

By HATOUM Michael

4 févr. 2019

Installation de Kubernetes sur CentOS 7

Installation de Kubernetes sur CentOS 7

Catégories : Orchestration de conteneurs | Tags : CentOS, cgroups, CNCF, DevOps, Docker, Infrastructure, Kubernetes, Namespaces, Red Hat, VM, Ceph

Cet article présente la démarche à suivre afin d’installer un cluster Kubernetes. Chaque étape sera détaillée afin que ayez une compréhension approfondie de chacune d’elle. Cet article s’appuie sur ma…

By BUSSER Arthur

29 janv. 2019

Les identités auto-souveraines

Les identités auto-souveraines

Catégories : Gouvernance des données | Tags : Authentification, Blockchain, Cloud, Identité, Livre de compte (ledger)

Vers une identité numérique fiable, personnelle, persistante et portable pour tous. Problèmes d’identité numérique Les identités auto-souveraines sont une tentative de redéfinir le notion d’identité…

By MELLAL Nabil

22 janv. 2019

Apprentissage par renforcement appliqué au jeu de Poker

Apprentissage par renforcement appliqué au jeu de Poker

Catégories : Data Science | Tags : Algorithmes, Deep Learning, Jeu, Machine Learning, Python, Q-learning, Réseau de neurones

Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…

By BLAZEJEWSKI Oscar

9 janv. 2019

LXD : la pièce manquante

LXD : la pièce manquante

Catégories : Orchestration de conteneurs | Tags : CPU, Docker, Kubernetes, Linux, LXD, VM

LXD signifie Linux Container Daemon. Il s’agit d’une technologie de conteneur. Mais LXD est très différent. Il se distingue du peloton. Ce n’est pas nécessairement mieux ni beaucoup plus rapide ni…

By SAHNOUNI Tariq

28 déc. 2018

Surveillance d'un cluster Hadoop de production avec Kubernetes

Surveillance d'un cluster Hadoop de production avec Kubernetes

Catégories : DevOps & SRE | Tags : Knox, Thrift, Docker, Elasticsearch, Graphana, Kubernetes, Node.js, Prometheus, Python, Shinken, Hadoop

La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui…

By CORDONNIER Paul-Adrien

21 déc. 2018

CodaLab - Concours de Data Science

CodaLab - Concours de Data Science

Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, Machine Learning, MySQL, Node.js, Python

CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…

By SOARES Robert Walid

17 déc. 2018

Les modules natifs Node.js avec N-API

Les modules natifs Node.js avec N-API

Catégories : Adaltas Summit 2018, Front End | Tags : C++, JavaScript, Kerberos, Node.js, NPM

Que sont les modules natifs pour Node.js et comment les créer ? Les addons C/C++ sont une fonctionnalité utile et puissante du runtime Node.js. Explorons-les depuis leurs fonctionnement, jusqu’à leur…

By HERMAND Xavier

12 déc. 2018

Microsoft annonce Cloud Native Application Bundles

Microsoft annonce Cloud Native Application Bundles

Catégories : Orchestration de conteneurs | Tags : CLI, Docker, Helm, Kubernetes, Packaging

Lors de la DockerCon EU 2018 à Barcelone, Matt Butcher, ingénieur principal chez Microsoft et inventeur de Helm, a présenté CNAB, Cloud Native Application Bundles, un format de packaging pour…

By BUSSER Arthur

4 déc. 2018

Jumbo, le bootstrapper de clusters Hadoop

Jumbo, le bootstrapper de clusters Hadoop

Catégories : Infrastructure | Tags : Ansible, Ambari, Automation, HDP, REST, Vagrant

Présentation de Jumbo, un bootstrapper de cluster Hadoop pour les développeurs. Jumbo vous aide à déployer des environnements de développement pour les technologies Big Data. Il suffit de quelques…

By LEONARD Gauthier

29 nov. 2018

Les principaux avantages de GraphQL comme alternative au REST

Les principaux avantages de GraphQL comme alternative au REST

Catégories : Front End | Tags : API, GraphQL, GRPC, JSON, Node.js, Registre (API, conteneurs, schema, ...), REST

GraphQL est basé sur une idée simple, déplacer l’assemblage d’une requête du serveur vers le client. Ce dernier voit l’ensemble du schéma fortement typé au lieu d’une multitude de services REST et…

By WORMS David

27 nov. 2018

Prise de contrôle d'un cluster Hadoop avec Apache Ambari

Prise de contrôle d'un cluster Hadoop avec Apache Ambari

Catégories : Big Data, DevOps & SRE, Adaltas Summit 2018 | Tags : Ambari, Automation, HDP, iptables, Kerberos, Nikita, Node.js, REST, Systemd

Nous avons récemment migré un large cluster Hadoop de production installé “manuellement” vers Apache Ambari. Nous avons nommé cette opération “Ambari Takeover”. C’est un processus à risque et nous…

By SCHOUKROUN Leo

20 nov. 2018

Node.js CSV version 4 - réécriture et performances

Node.js CSV version 4 - réécriture et performances

Catégories : Node.js | Tags : CLI, CSV, Data Engineering, Refactoring, Versions et évolutions

Nous publions aujourd’hui une nouvelle version majeure du projet CSV Parser pour Node.js. La version 4 est une réécriture complète du projet axée sur la performance. Il comporte également de nouvelles…

By WORMS David

19 nov. 2018

Gestion des identités utilisateurs sur clusters Big Data

Gestion des identités utilisateurs sur clusters Big Data

Catégories : Cybersécurité, Gouvernance des données | Tags : Ansible, FreeIPA, Identité, Kerberos, LDAP, Active Directory

La sécurisation d’un cluster Big Data implique l’intégration ou le déploiement de services spécifiques pour stocker les utilisateurs. Certains utilisateurs sont spécifiques à un cluster lorsque d…

By WORMS David

8 nov. 2018

Apache Flink : passé, présent et futur

Apache Flink : passé, présent et futur

Catégories : Data Engineering | Tags : Flink, Traitement par lots, Consistance, Kubernetes, Livre de compte (ledger), Machine Learning, Micro Services, Pipeline, Streaming, SQL

Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…

By BEREZOWSKI César

5 nov. 2018

Une semaine à discuter techno isolés dans un riad Marocain

Une semaine à discuter techno isolés dans un riad Marocain

Catégories : Adaltas Summit 2018, Formation | Tags : Flink, Knox, CDSW, Deep Learning, Gatsby, Kubernetes, Node.js, React.js, Hadoop

Adaltas organise sa première conférence entre les 22 et 26 Octobre. Au programme de ces 5 jours de conférence : discuter de technologie dans l’un des plus beau riad de Marrakech. Mélanger l’utile à l…

By WORMS David

14 oct. 2018

Nvidia et l'IA embarqué

Nvidia et l'IA embarqué

Catégories : Data Science | Tags : IA, Caffe, Deep Learning, Edge computing, GPU, Keras, NVIDIA, PyTorch, TensorFlow

Depuis un peu plus de quatre ans, beaucoup de sociétés investissent dans l’intelligence artificielle et plus particulièrement dans le Deep Learning et le Edge Computing. Alors que la théorie avance à…

By HATI Yliess

10 oct. 2018

Déploiement d'un cluster Flink sécurisé sur Kubernetes

Déploiement d'un cluster Flink sécurisé sur Kubernetes

Catégories : Big Data | Tags : Flink, HDFS, Kafka, Elasticsearch, Chiffrement, Kerberos, SSL/TLS

Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…

By WORMS David

8 oct. 2018

Machines KVM pour Vagrant sur Archlinux

Machines KVM pour Vagrant sur Archlinux

Catégories : DevOps & SRE | Tags : Arch Linux, KVM, Linux, Vagrant, Virtualisation, VM

Vagrant supporte différents providers pour gérer la virtualisation. Dans un environnement Linux, il est possible d’améliorer considérablement les performances des VMs en utilisant le provider libvirt…

By LEONARD Gauthier

19 sept. 2018

Lando : résumé de conversation en Deep Learning

Lando : résumé de conversation en Deep Learning

Catégories : Data Science, Formation | Tags : Deep Learning, Kubernetes, Micro Services, Node.js, Open API, Réseau de neurones

Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…

By HATI Yliess

18 sept. 2018

Migration de cluster et de traitements entre Hadoop 2 et 3

Migration de cluster et de traitements entre Hadoop 2 et 3

Catégories : Big Data, Infrastructure | Tags : HBase, HDFS, Oozie, Shiro, Spark, YARN, Docker, Erasure Coding, Exploitation, Rolling Upgrade, SLA, Hadoop

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…

By BAKALIAN Lucas

25 juil. 2018

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Catégories : Data Science | Tags : Spark, Spark MLlib, YARN, Deep Learning, GPU, PyTorch, TensorFlow, XGBoost, Hadoop

Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…

By BIANCHERIN Louis

24 juil. 2018

Remède à l'aveuglement de Kafka

Remède à l'aveuglement de Kafka

Catégories : Big Data | Tags : Ambari, Kafka, Ranger, Hortonworks, HDP, HDF, JMX, UI

Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…

By BAKALIAN Lucas

20 juin 2018

Environnement de développement CoreOS avec Vagrant et VirtualBox

Environnement de développement CoreOS avec Vagrant et VirtualBox

Catégories : Hack, Infrastructure | Tags : Arch Linux, Partitionnement, CoreOS, etcd, Linux, Vagrant, VirtualBox

Suivre les instructions de CoreOS sur la façon de configurer un environnement de développement dans VirtualBox n’a pas bien fonctionné pour moi. Voici les étapes que j’ai suivies pour que Container…

By BUSSER Arthur

20 juin 2018

Guide pour les dossiers chiffrés sur Keybase

Guide pour les dossiers chiffrés sur Keybase

Catégories : Cybersécurité, Hack | Tags : Autorisation, Cryptographie, Chiffrement, Système de fichiers, Keybase, PGP

Cet article est un guide sur l’utilisation des dossiers chiffrés de Keybase pour stocker et partager des fichiers. Keybase is un logiciel pour partager ses groupes, ses fichiers et ses messages. Son…

By BUSSER Arthur

18 juin 2018

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Lac de données, Format de fichier, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Registre (API, conteneurs, schema, ...), Schéma

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

By WORMS David

18 juin 2018

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive

Catégories : Business Intelligence, DataWorks Summit 2018 | Tags : Calcite, Druid, Hive, OLAP, Versions et évolutions, SQL

Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues…

YARN et le calcul distribué sur GPU pour le machine learning

YARN et le calcul distribué sur GPU pour le machine learning

Catégories : Data Science, DataWorks Summit 2018 | Tags : YARN, GPU, Machine Learning, Storage, Réseau de neurones

Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…

By JOUET Grégor

30 mai 2018

Apache Hadoop YARN 3.0 - État de l'art

Apache Hadoop YARN 3.0 - État de l'art

Catégories : Big Data, DataWorks Summit 2018 | Tags : HDFS, MapReduce, YARN, Cloudera, Docker, GPU, Hortonworks, Versions et évolutions, Hadoop

Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…

By BAKALIAN Lucas

29 mai 2018

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, Spark, YARN, C++, CPU, GPU, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow, Performance

L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…

By HATI Yliess

29 mai 2018

Apache Metron dans le monde réel

Apache Metron dans le monde réel

Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithmes, HDFS, Kafka, NiFi, Solr, Spark, Storm, Elasticsearch, pcap, SGBDR, Metron, SQL

Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…

By HATOUM Michael

29 mai 2018

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : AWS, Cloudbreak, HDP, Azure, OpenStack, Exploitation, Hadoop, GCP

Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…

By RUMMENS Joris

28 mai 2018

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Catégories : Big Data, DataWorks Summit 2018 | Tags : ACID, HBase, Omid, Phoenix, Transaction, SQL

Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…

By HERMAND Xavier

24 mai 2018

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Flink, Spark, Traitement par lots, Java, Pipeline, Python, Streaming

Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…

By LEONARD Gauthier

24 mai 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, CDH, HDP, REST, Hadoop

Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…

By SCHOUKROUN Leo

23 mai 2018

Quelles nouveautés pour Apache Spark 2.3 ?

Quelles nouveautés pour Apache Spark 2.3 ?

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, ORC, Spark, Spark MLlib, PySpark, Docker, Kubernetes, Streaming, Performance, pandas

Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…

By BEREZOWSKI César

23 mai 2018

Questions essentielles sur les base de données Time Series

Questions essentielles sur les base de données Time Series

Catégories : Big Data | Tags : Druid, HBase, Hive, ORC, Elasticsearch, Graphana, IOT

Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…

By WORMS David

19 mars 2018

Executer du Python dans un workflow Oozie

Executer du Python dans un workflow Oozie

Catégories : Data Engineering | Tags : Oozie, Elasticsearch, Python, REST

Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…

By BEREZOWSKI César

7 mars 2018

Ambari - Comment utiliser les blueprints

Ambari - Comment utiliser les blueprints

Catégories : Big Data, DevOps & SRE | Tags : Ambari, Ranger, Automation, CDH, DevOps, HDP, Exploitation, REST

En tant qu’ingénieurs d’infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d’utiliser une distribution telle que Hortonworks HDP ou…

By RUMMENS Joris

17 janv. 2018

Notes sur Katacoda relatives à l'orchestrateur de conteneur Kubernetes

Notes sur Katacoda relatives à l'orchestrateur de conteneur Kubernetes

Catégories : Orchestration de conteneurs, Formation | Tags : Helm, Ingress, Kubeadm, Kubernetes, CNI, Micro Services, Minikube, SSL/TLS, YAML

Il y a quelques semaines, j’ai consacré deux jours pour suivre les cours relatifs à la solution d’orchestration de *container Kubernetes mis à disposition sur la plateforme Katacoda. Je partage ces…

By WORMS David

8 janv. 2018

Passage à l'échelle de larges pipelines de données en temps réel avec Go

Passage à l'échelle de larges pipelines de données en temps réel avec Go

Catégories : Open Source Summit Europe 2017, Formation | Tags : Algorithmes, Data structures, Go, Réseau, Pipeline, Protocols

Il y a quelques semaines, à l’Open Source Summit à Prague, Jean de Klerk a tenu une conférence intitulée “Passage à l’échelle en temps réel de pipelines de données avec Go”. Cet article passe en revue…

By BUSSER Arthur

21 nov. 2017

Introduction à MESOS

Introduction à MESOS

Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Mesos, Conteneur, Orchestration de conteneurs, CUDA, Docker, GPU

Apache Mesos est un projet Open Source de gestion de clusters pensé pour mettre en place et optimiser des systèmes distribués. Mesos permet la gestion et le partage des ressources de manière fine et…

By BIANCHERIN Louis

15 nov. 2017

Micro Services

Micro Services

Catégories : Cloud computing, Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Mesos, CNCF, DNS, Chiffrement, GRPC, Istio, Kubernetes, Linkerd, Micro Services, MITM, Proxy, Service Mesh, SSL/TLS, SPOF

Historiquement, les applications étaient monolithiques et nous pouvions utiliser une adresse IP pour accéder à un service. Avec les machines virtuelles (VM), plusieurs hôtes commencent à apparaître…

By WORMS David

14 nov. 2017

Orchestration de conteneurs chez Facebook avec Tupperware

Orchestration de conteneurs chez Facebook avec Tupperware

Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags : Zookeeper, Btrfs, Cloud, LXD, Red Hat, Systemd

Dans cet article, je présenterai la solution d’orchestration de conteneurs mise en place par Facebook, appelée Tupperware. Qu’est-ce que Tupperware ? Tupperware est un framework fait maison écrit et…

By BAKALIAN Lucas

3 nov. 2017

Intégration continue et "gating" multi-repo à grand échelle

Intégration continue et "gating" multi-repo à grand échelle

Catégories : Cloud computing, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Ansible, CI/CD, Infrastructure, Jenkins, OpenStack, Red Hat, Zuul

Cet article est un récapitulatif avec nos impressions de la présentation de l’outil d’intégration continue d’OpenStack Zuul à la conférence Open Source Summit 2017 à Prague par Monty Taylor (à ne pas…

By RUMMENS Joris

28 oct. 2017

Apache Thrift vs REST

Apache Thrift vs REST

Catégories : DevOps & SRE, Open Source Summit Europe 2017 | Tags : Thrift, GRPC, HTTP, JSON, REST

Adaltas a récemment assisté à l’Open Source Summit Europe 2017 à Prague. J’ai eu l’occasion de suivre une présentation faite par Randy Abernethy et Jens Geyer de RM-X, une société de conseil en cloud…

By SCHOUKROUN Leo

28 oct. 2017

Méthodes de stockage persistées dans Kubernetes

Méthodes de stockage persistées dans Kubernetes

Catégories : Cloud computing, Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Docker, GCE, Kubernetes, Container Storage Interface (CSI), PVC, Azure, Storage

Cet article est basé sur la présentation “Introduction to Kubernetes Storage Primitives for Stateful Workloads” par the {Code} team à la conférence OSS 2017 à Prague. Commençons par qu’est-ce que…

By SAUVAGE Pierre

28 oct. 2017

Personne* ne met Java dans un containeur

Personne* ne met Java dans un containeur

Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags : cgroups, Docker, Java, JRE, JVM, Namespaces

Cette discussion porte sur les problèmes de mettre Java dans un conteneur et comment, dans sa dernière version 9, le JDK est maintenant plus conscient du conteneur dans lequel il s’exécute. La…

By CORDONNIER Paul-Adrien

28 oct. 2017

De Dockerfile à Ansible Containers

De Dockerfile à Ansible Containers

Catégories : Orchestration de conteneurs, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Ansible, Docker, Docker Compose, pip, Shell, YAML

Cette présentation était une introduction au format Dockerfile et à l’outil Ansible Containers puis une comparaison des deux produits. Elle fut réalisée par Tomas Tomecek, membre de l’équipe…

By BEREZOWSKI César

25 oct. 2017

Kubernetes 1.8

Kubernetes 1.8

Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : containerd, Kubernetes, CRD, Réseau, OCI, RBAC, Versions et évolutions

L’arrivée de Kubernetes 1.8 apporte son lot de nouveautés. Grâce à plus de 2500 pull requests, 2000 commits, avec environ 400 commiters, Kubernetes a su rajouter 39 fonctionnalités en plus à la…

By YASSINE Younes

24 oct. 2017

Le moteur Vespa de Yahoo

Le moteur Vespa de Yahoo

Catégories : Tech Radar | Tags : Base de données, Elasticsearch, Search Engine, Tools

Vespa est le moteur de services et de traitements big data complètement autonome et autosuffisant de Yahoo. Il a pour but de servir les résultats de requêtes sur d’énorme quantité de données en temps…

By BUSSER Arthur

16 oct. 2017

Cloudera Sessions Paris 2017

Cloudera Sessions Paris 2017

Catégories : Big Data, Évènements | Tags : Altus, EC2, Cloudera, CDH, CDSW, SDX, Azure, PaaS

Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…

By BEREZOWSKI César

16 oct. 2017

MariaDB integration with Hadoop

MariaDB integration with Hadoop

Catégories : Infrastructure | Tags : Hive, Base de données, HA, MariaDB, Hadoop

Lors d’ateliers menés avec l’un de nos clients, Adaltas a levé un risque potentiel sur la stratégie utilisée pour la mise en haute disponibilité (HA) de MariaDB. Le client ayant sélectionné la…

By WORMS David

31 juil. 2017

Exposition de brokers Kafka sur deux interfaces réseaux

Exposition de brokers Kafka sur deux interfaces réseaux

Catégories : Infrastructure | Tags : Kafka, Cloudera, CDH, Cybersécurité, Réseau, VLAN

Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…

By BEREZOWSKI César

22 juil. 2017

Synchronisation Oracle vers Hadoop avec un CDC

Synchronisation Oracle vers Hadoop avec un CDC

Catégories : Data Engineering | Tags : Hive, Sqoop, CDC, Data Warehouse, GoldenGate, Oracle

Cette note résulte d’une discussion autour de la synchronisation de données écrites dans une base de données à destination d’un entrepôt stocké dans Hadoop. Merci à Claude Daub de GFI qui la rédigea…

By WORMS David

13 juil. 2017

Changer la couleur de la topbar d'Ambari

Changer la couleur de la topbar d'Ambari

Catégories : Big Data, Hack | Tags : Ambari, Front-end

J’étais récemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, …) sur HDP avec chacun son instance Ambari. L’une des questions soulevée par le client est la suivante…

By BEREZOWSKI César

9 juil. 2017

MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit

MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit

Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, Cloudera, C++, HDP, HDF, IOT

Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…

By BEREZOWSKI César

8 juil. 2017

Administration Hadoop multitenant avancée - protection de Zookeeper

Administration Hadoop multitenant avancée - protection de Zookeeper

Catégories : Big Data, Infrastructure | Tags : Zookeeper, Partitionnement, DoS, iptables, Exploitation, Passage à l'échelle

Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…

By SAUVAGE Pierre

5 juil. 2017

Supervision de clusters HDP

Supervision de clusters HDP

Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Alert, Ambari, HDP, Métriques, Supervision, REST

Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…

By RUMMENS Joris

5 juil. 2017

Hive Metastore HA avec DBTokenStore : Failed to initialize master key

Hive Metastore HA avec DBTokenStore : Failed to initialize master key

Catégories : Big Data, DevOps & SRE | Tags : Hive, Bug, Infrastructure

Cette article décrit ma petite aventure autour d’une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d’une installation sécurisée, entendre avec…

By WORMS David

21 juil. 2016

EclairJS - Un peu de Spark dans les Web Apps

EclairJS - Un peu de Spark dans les Web Apps

Catégories : Data Engineering, Front End | Tags : Spark, JavaScript, Jupyter

Présentation de David Fallside, IBM. Les images sont issues des slides de présentation. Introduction Le développement d’applications Web est passé d’un environnement Java vers des environnements…

By WORMS David

17 juil. 2016

Apache Apex : l'analytique Big Data nouvelle génération

Apache Apex : l'analytique Big Data nouvelle génération

Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Kafka, Storm, Data Science, Machine Learning, Tools, Hadoop

Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…

By BEREZOWSKI César

17 juil. 2016

Apache Apex avec Apache SAMOA

Apache Apex avec Apache SAMOA

Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Samoa, Storm, Machine Learning, Tools, Hadoop

Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training : Construction du modèle Holdout : tuning du paramétrage Test : précision…

By SAUVAGE Pierre

17 juil. 2016

Maitrisez vos workflows avec Apache Airflow

Maitrisez vos workflows avec Apache Airflow

Catégories : Big Data, Tech Radar | Tags : Airflow, Cloud, DevOps, Python

Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…

By BEREZOWSKI César

17 juil. 2016

Hive, Calcite et Druid

Hive, Calcite et Druid

Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop

BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…

By WORMS David

14 juil. 2016

Namespace réseau sans Docker

Namespace réseau sans Docker

Catégories : Hack | Tags : DNS, Docker, Linux, Namespaces, Réseau, VLAN

Imaginons le cas suivant : Je suis connecté à plusieurs réseaux (wlan0, eth0, usb0). Je veux choisir le réseau que je vais utiliser au lancement de mon application. Mon application ne permet pas de…

By SAUVAGE Pierre

6 juil. 2016

L'offre Red Hat Storage et son intégration avec Hadoop

L'offre Red Hat Storage et son intégration avec Hadoop

Catégories : Big Data | Tags : HDFS, GlusterFS, Red Hat, Storage, Hadoop

J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins…

By WORMS David

3 juil. 2015

Un middleware pour connect simple pour transpiler des fichiers CoffeeScript

Un middleware pour connect simple pour transpiler des fichiers CoffeeScript

Catégories : Hack, Node.js | Tags : CoffeeScript, Node.js, Tools

Ce nouveau module appelé connect-coffee-script est un middleware Connect utilisé pour servir les fichiers JavaScript écrits en CoffeeScript. Ce middleware doit être utilisé par connect ou tout…

By WORMS David

4 juil. 2014

Diviser des fichiers HDFS en plusieurs tables Hive

Diviser des fichiers HDFS en plusieurs tables Hive

Catégories : Data Engineering | Tags : Flume, HDFS, Hive, Oozie, Pig, SQL

Je vais montrer comment scinder fichier CSV stocké dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…

By WORMS David

15 sept. 2013

Traverser des arrays en mode asynchronisé dans Node.js avec Each

Traverser des arrays en mode asynchronisé dans Node.js avec Each

Catégories : Node.js | Tags : Asynchrone, CoffeeScript, JavaScript, Versions et évolutions

Les librairies en Node.js permettant de gérer et simplifier les appels asynchrones sont légions. Voici le genre de librairies que chacun écrit pour lui et éventuellement publie. Elles ont pour but de…

By WORMS David

29 juil. 2012

Node CSV version 0.2.1

Node CSV version 0.2.1

Catégories : Node.js | Tags : CoffeeScript, CSV, Versions et évolutions, Streaming

Faisant suite à l’annonce de la version 0.2.0 du parser CSV pour Node.js début octobre, aujourd’hui sort la nouvelle version 0.2.1. Il s’agit essentiellement d’une distribution corrigeant des bugs…

By WORMS David

26 juil. 2012

E-commerce cigarettes électroniques : impressions sur Prestashop

E-commerce cigarettes électroniques : impressions sur Prestashop

Catégories : Tech Radar | Tags : HTML, Java, Node.js

L’année dernière, il m’a fallu choisir et intégrer une solution e-commerce pour le site de vente de cigarettes électroniques CigarHit. Etant donné que ma dernière intégration d’un site e-commerce…

By WORMS David

23 juil. 2012

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Catégories : Data Engineering | Tags : Analytique, HBase, HDFS, Hive, ORC, Parquet

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…

By WORMS David

15 juil. 2012

Installation de PostgreSQL et Madlib sur OSX

Installation de PostgreSQL et Madlib sur OSX

Catégories : Data Science | Tags : Base de données, Greenplum, PostgreSQL, Statistiques, SQL

Nous couvrons l’installation et l’utilisation de PostgreSQL et de MADlib sur OSX et Ubuntu. Les instructions pour les autres environnements doivent être similaires. PostgreSQL est une base de données…

By WORMS David

7 juil. 2012

Notes sur le rapport Gallois par une entreprise informatique

Notes sur le rapport Gallois par une entreprise informatique

Catégories : Tech Radar | Tags : Big Data, Gouvernance des données, Loi

Dans le cadre de la lecture du rapport Gallois rendu publique hier, j’ai conservé quelques notes qui après recompilation sont publiées en ligne. On peut certes regretter le manque de mention sur le…

By WORMS David

6 juil. 2012

Node CSV version 0.2 incluant le support de l'API streaming

Node CSV version 0.2 incluant le support de l'API streaming

Catégories : Node.js | Tags : CSV, Markdown, Node.js, Streaming

Annoncé en Août, le parser CSV pour Node.js dans sa version 0.2 est sorti hier. Cette version est une mise à jour majeure dans le sens ou elle aligne l’API de la librairie avec les meilleures…

By WORMS David

3 juil. 2012

Deux Hive UDAF pour convertir une aggregation vers une map

Deux Hive UDAF pour convertir une aggregation vers une map

Catégories : Data Engineering | Tags : Analytique, HBase, HDFS, Hive

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…

By WORMS David

6 mars 2012

Un regard neuf sur les tests de projets Node.js : Mocha, Should et Travis

Un regard neuf sur les tests de projets Node.js : Mocha, Should et Travis

Catégories : DevOps & SRE, Node.js | Tags : DevOps, JavaScript, Mocha, Node.js, Tests unitaires

Suite à une demande, l’article ci-dessous est la traduction d’un précédent publié le 19 février 2012. Aujourd’hui, j’ai finalement décidé de passer un peu de temps autour de Travis. Cette petite image…

By WORMS David

3 mars 2012

Java versus JS, citation de la mailing list de Node.js

Java versus JS, citation de la mailing list de Node.js

Catégories : Node.js | Tags : Java, JavaScript, Node.js

Je viens de lire celui-ci sur la mailing list de Node.js. J’ai trouvé l’échange pertinent, suffisamment pour le partager avec ceux qui n’auraient pas souscrit a la mailing list : Tout d’abord Lothar…

By WORMS David

23 févr. 2012

Coffee script, comment mettre la main sur cette ligne ?

Coffee script, comment mettre la main sur cette ligne ?

Catégories : Hack, Node.js | Tags : CoffeeScript, Debug, JavaScript, Node.js

Mise à jour du 12 avril 2012 : Pull Request ajoutant un un mappage aux rapports d’erreur CoffeeScript Il est probable que, si vous codez en CoffeeScript, vous vous retrouvez souvent face à une…

By WORMS David

15 févr. 2012

Lancement de Mecano, fonctions pour le déploiement de systèmes

Lancement de Mecano, fonctions pour le déploiement de systèmes

Catégories : DevOps & SRE, Node.js | Tags : Automation, CoffeeScript, DevOps, Infrastructure, JavaScript, Node.js, Open source

Mis à jour en juillet 2016, Mecano est désormais renommé Nikita. Nous publions Node Mecano sur GitHub, qui regroupent des fonctions communes utilisées lors du déploiement de systèmes. L’idée était de…

By WORMS David

12 févr. 2012

Node CSV parser a la rescousse

Node CSV parser a la rescousse

Catégories : Hack | Tags : Bash, CSV, Hack, Node.js

Vendredi dernier, une heure avant la fermeture des portes de mon client pour le week-end, un collègue est venu me voir. Il vient juste de finir d’exporter 9 fichiers CSV à partir d’une base de données…

By WORMS David

13 déc. 2011

Node.js intégré à la plateforme cloud Microsoft Azure

Node.js intégré à la plateforme cloud Microsoft Azure

Catégories : Cloud computing, Tech Radar | Tags : Cloud, Linux, Azure, Node.js

Node est désormais un citoyen de premier ordre dans l’environnement cloud de Microsoft Azure au côté de .Net, Java et PHP. Cette intégration est la conséquence logique de l’implication de Microsoft…

By WORMS David

11 déc. 2011

Chef : configuration et deploiement automatisé de Clusters

Chef : configuration et deploiement automatisé de Clusters

Catégories : DevOps & SRE, Infrastructure | Tags : Automation, Chef, Déploiement, Enseignement et tutorial, Puppet, Hadoop

L’installation d’un cluster de plusieurs machines est consommateur de temps. La même procédure de mise en place des logiciels et de leurs paramétrages doit être répétée à l’identique. Au cours du…

By WORMS David

10 déc. 2010

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué

Catégories : Big Data, Formation | Tags : HBase, Big Data, Hue, Déploiement, Infrastructure, Hadoop

Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré…

By WORMS David

1 déc. 2010

Stockage et traitement massif avec Hadoop

Stockage et traitement massif avec Hadoop

Catégories : Big Data | Tags : HDFS, Nutch, Cloudera, Google, Hadoop

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés…

By WORMS David

26 nov. 2010

Stockage et traitement massif avec Hadoop

Stockage et traitement massif avec Hadoop

Catégories : Big Data, Node.js | Tags : HBase, Big Data, Node.js, REST

HBase est la base de données de type “column familly” de l’écosystème Hadoop construite sur le modèle de Google BigTable. HBase peut accueillir de très larges volumes de données (de l’ordre du tera ou…

By WORMS David

1 nov. 2010

Présentation de MapReduce

Présentation de MapReduce

Catégories : Big Data | Tags : MapReduce, Big Data, Java, JavaScript

Les systèmes d’information ont de plus en plus de données à stocker et à traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien d’autre stockent des quantités d’information…

By WORMS David

26 juin 2010

Node.js, JavaScript côté serveur

Node.js, JavaScript côté serveur

Catégories : Front End, Node.js | Tags : HTTP, JavaScript, Node.js, Serveur

En attente du prochain grand language (NBL pour Next Big Language), cela fait maintenant 3 ans que je prédis à mes clients un bel avenir au JavaScript comme langue de programmation pour les…

By WORMS David

12 juin 2010

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Sciencem le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.