Articles publiés en 2019

Cloudera CDP et migration Cloud de votre Data Warehouse

Catégories : Big Data, Cloud computing | Tags : Atlas, Ranger, Spark, Cloudera, FreeIPA, Knox, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Data Hub, Lac de données, Entrepôt de données (Data Warehouse), Azure

Alors que l’un de nos clients anticipe un passage vers le Cloud et avec l’annonce récente de la disponibilité de Cloudera CDP mi-septembre lors de la conférence Strata, il semble que le moment soit…

WORMS David

By WORMS David

16 déc. 2019

Configuration à distance et auto-indexage des pipelines Logstash

Catégories : Data Engineering, Infrastructure | Tags : Conteneur, DevOps, Docker, Elasticsearch, Pipeline, Kibana, Logstash, Log4j

Logstash est un puissant moteur de collecte de données qui s’intègre dans la suite Elastic (Elasticsearch - Logstash - Kibana). L’objectif de cet article est de montrer comment déployer un cluster…

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

13 déc. 2019

Migration Big Data et Data Lake vers le Cloud

Catégories : Big Data, Cloud computing | Tags : Kafka, Spark, DevOps, Hadoop, Knox, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Azure Data Catalog, Azure Data Factory, Cloud, CDP, Data Hub, Databricks, GCP, Kubernetes, Azure, Redis

Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…

RUMMENS Joris

By RUMMENS Joris

9 déc. 2019

Hadoop Ozone partie 3: Stratégie de réplication avancée avec les Copyset

Catégories : Infrastructure | Tags : HDFS, Big Data, Versions et évolutions, Ozone, Amazon S3, Cloud, Cluster, Kubernetes, Noeud

Hadoop Ozone propose de configurer le type de réplication à chaque écriture effectué sur le cluster. Actuellement seules HDFS et Ratis sont disponibles mais des stratégies plus avancées sont…

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

3 déc. 2019

Hadoop Ozone partie 2: tutorial et démonstration des fonctionnalités

Catégories : Infrastructure | Tags : HDFS, Big Data, CLI, HTTP, Kerberos, Enseignement et tutorial, Versions et évolutions, REST, Ozone, Amazon S3, Cloud, Cluster

Les versions d’Hadoop Ozone sont livrées avec des fichiers docker-compose très pratique pour tester Ozone. Les instructions ci-dessous apportent des détails sur comment les utiliser. Il est aussi…

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

3 déc. 2019

Hadoop Ozone partie 1: introduction du nouveau système de fichiers

Catégories : Infrastructure | Tags : HDFS, Hive, MapReduce, Spark, Big Data, Container Storage Interface (CSI), Versions et évolutions, Ozone, Amazon S3, Cloud, Cluster, Kubernetes

Hadoop Ozone est système de stockage d’objet pour Hadooop. Il est conçu pour supporter des milliards d’objets de tailles diverses. Il est actuellement en développement. La feuille de route est…

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

3 déc. 2019

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Catégories : Data Engineering, Data Science | Tags : Flink, Kafka, Spark, Automation, Big Data, Conteneur, DevOps, Elasticsearch, Enseignement et tutorial, NoSQL, Hadoop, HBase, Kubernetes, Python

Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…

WORMS David

By WORMS David

26 nov. 2019

Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes

Catégories : Big Data, Orchestration de conteneurs | Tags : Kafka, Spark, Automation, Data Engineering, DevOps, Git, Enseignement et tutorial, LXD, NoSQL, Hadoop, Ceph, IaC, Kubernetes

Contexte L’acquisition d’un cluster à forte capacité répond à la volonté d’Adaltas de construire une offre de type PAAS pour disposer et mettre à disposition des plateformes de Big Data et d…

WORMS David

By WORMS David

26 nov. 2019

Insérer des lignes dans une table BigQuery avec des colonnes complexes

Catégories : Cloud computing, Data Engineering | Tags : Analytique, Big Data, Enseignement et tutorial, Schéma, GCP, BigQuery, SQL

Le service BigQuery de Google Cloud est une solution data warehouse conçue pour traiter d’énormes volumes de données avec un certain nombre de fonctionnalités disponibles. Parmi toutes celles-ci, nous…

BEREZOWSKI César

By BEREZOWSKI César

22 nov. 2019

Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod

Catégories : Data Science | Tags : Algorithme, CPU, Deep Learning, GPU, Pipeline, Performance, Horovod, Keras, Machine Learning, TCO, TensorFlow

L’entraînement des modèles Deep Learning peut être grandement accéléré en utilisant un cluster de GPUs. Lorsqu’il s’agit de grandes quantités de données, effectuer des calculs distribués devient…

JOUET Grégor

By JOUET Grégor

15 nov. 2019

Authentification Kerberos et Spnego sur Windows avec Firefox

Catégories : Cybersécurité | Tags : Big Data, Cryptographie, DevOps, Firefox, FreeIPA, HTTP, Kerberos, Réseau

Dans la mythologie grecque, Kerberos, aussi appelé Cerbère, garde les portes du monde souterrain pour empêcher les morts de partir. Il est communément décrit comme un chien à trois têtes ayant une…

WORMS David

By WORMS David

4 nov. 2019

Notes sur le nouveau modèle de licences Open Source de Cloudera

Catégories : Big Data | Tags : Cloudera, CDSW, HDP, Licence, Open source, CDH, Cloudera Manager

Suite à la publication de sa stratégie de licences Open Source le 10 juillet 2019 dans un article intitulé “notre engagement envers les logiciels Open Source”, Cloudera a diffusé un webinaire hier le…

WORMS David

By WORMS David

25 oct. 2019

Innovation, culture projet vs culture produit en Data Science

Catégories : Data Science, Gouvernance des données | Tags : DevOps, Registre, Schéma, Agile, Scrum, TCO

La Data Science porte en elle le métier de demain. Elle est étroitement liée à la compréhension du métier, des comportements et de l’intelligence qu’on tirera des données existantes. Les enjeux sont à…

WORMS David

By WORMS David

8 oct. 2019

Mise en production d'un modèle de Machine Learning

Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : Kafka, Spark, YARN, Conteneur, C++, Deep Learning, DevOps, Docker, Java, Supervision, Exploitation, Schéma, IA, Hadoop, Cloud, Kubernetes, Machine Learning, MLflow, MLOps, Réseau de neurones, On-premises, Python, TensorFlow, XGBoost

“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

30 sept. 2019

Rook via Ceph n'approvisionne pas mes Persistent Volume Claims !

Catégories : DevOps & SRE | Tags : PVC, Linux, Rook, Ubuntu, Ceph, Cluster, Kubernetes, PostgreSQL, Redis, Storage

L’installation de Ceph dans un cluster Kubernetes peut être automatisé par l’utilisation de Rook. Actuellement en stage chez Adaltas, j’étais en charge de participer à la configuration d’un cluster…

CHOJNOWSKI Eyal

By CHOJNOWSKI Eyal

9 sept. 2019

Utilisateurs et autorisations RBAC dans Kubernetes

Catégories : Orchestration de conteneurs, Gouvernance des données | Tags : Authentification, Autorisation, Cybersécurité, RBAC, Kubernetes, SSL/TLS

Le déploiement d’un cluster Kubernetes n’est que le début de votre parcours et vous devez maintenant l’exploiter. Pour sécuriser son accès, les identités des utilisateurs doivent être déclarées avec…

SOARES Robert Walid

By SOARES Robert Walid

7 août 2019

Installation de TensorFlow avec Docker

Catégories : Orchestration de conteneurs, Data Science, Formation | Tags : CPU, Deep Learning, Docker, Jupyter, Linux, IA, Python, TensorFlow

TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph : Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau…

SAUVAGE Pierre

By SAUVAGE Pierre

5 août 2019

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, Cloudera, JDBC, LLAP, Active Directory, Versions et évolutions, Hadoop, Entrepôt de données (Data Warehouse), PostgreSQL, Python, Storage

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

LEONARD Gauthier

By LEONARD Gauthier

25 juil. 2019

Auto-scaling de Druid avec Kubernetes

Catégories : Big Data, Business Intelligence, Orchestration de conteneurs | Tags : EC2, Druid, CNCF, Orchestration de conteneurs, Analyse de données, Helm, Métriques, OLAP, Exploitation, Prometheus, Cloud, Kubernetes, Python

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est…

SCHOUKROUN Leo

By SCHOUKROUN Leo

16 juil. 2019

Activer Aladdin eToken dans Firefox sur Archlinux

Catégories : Hack | Tags : 2FA, Arch Linux, Cybersécurité, Firefox, sécurité, Carte à puce

Si comme moi vous êtes sur Archlinux et que vous disposez d’un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin…

BEREZOWSKI César

By BEREZOWSKI César

12 juil. 2019

Spark Streaming partie 4 : clustering avec Spark MLlib

Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Scala, Streaming, Clustering, Machine Learning

Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

11 juil. 2019

Notes du Google Cloud Summit à Paris

Catégories : Évènements | Tags : AWS, Cloud, GCP, Kubernetes, Azure, On-premises

Le 18 Juin avait lieu l’édition 2019 du salon annuel de Google à Paris. L’édition Parisienne de cette année a été la plus grande jusqu’à maintenant, ce qui reflète l’engagement de Google à se…

SAHNOUNI Tariq

By SAHNOUNI Tariq

26 juin 2019

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Spark, Apache Spark Streaming, DevOps, Enseignement et tutorial, Scala, Streaming, Tests unitaires, IaC, Log4j, Python

L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

19 juin 2019

Intégration de Druid et Hive

Catégories : Big Data, Business Intelligence, Tech Radar | Tags : Druid, Hive, Analyse de données, Enseignement et tutorial, LLAP, OLAP, GitLab, PostgreSQL, SQL

Nous allons dans cet article traiter de l’intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l’article Ultra-fast OLAP Analytics with Apache Hive and Druid.…

SAUVAGE Pierre

By SAUVAGE Pierre

13 juin 2019

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Catégories : Data Engineering, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Gouvernance des données, Streaming, Hadoop, Consensus, Format de fichier, Python, TCO

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

28 mai 2019

Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming

Catégories : Data Engineering, Formation | Tags : Kafka, Spark, PySpark, Apache Spark Streaming, Big Data, Streaming, SQL

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

18 avr. 2019

Réinstaller une partition EFI sur un serveur dédié

Catégories : Hack | Tags : Infrastructure, Linux, Cloud

Nous avons récemment eu quelques difficultés avec la partition EFI d’un serveur dédié. Après un redémarrage, il n’est pas revenu en ligne. Si vous avez un serveur dédié chez votre hébergeur, vous êtes…

JOUET Grégor

By JOUET Grégor

16 avr. 2019

Les fonctions de première classe en Python

Catégories : Hack, Formation | Tags : Programmation, Python

J’ai récemment regardé une conférence de Dave Cheney sur les fonctions de première classe en Go. Sachant que Python est également capable de les prendre en charge, sont-elles utilisables de la même…

BUSSER Arthur

By BUSSER Arthur

15 avr. 2019

Gatbsy.js, React et GraphQL pour nos documentations

Catégories : Adaltas Summit 2018, Front End | Tags : API, Gatsby, GraphQL, HTTP, JAMstack, JavaScript, Markdown, Node.js, React.js, SEO, IaC

Au cours des derniers mois, j’ai consacrer un peu de temps à la ré-écritures de quelques sites Web pour nos projets Open Source. Ces sites incluent le projet CSV de Node.js, le client HBase pour Node…

WORMS David

By WORMS David

1 avr. 2019

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Catégories : Data Engineering | Tags : Hive, Spark, Thrift, JDBC, Hadoop, Python, SQL

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

25 mars 2019

Multihoming avec Hadoop

Catégories : Infrastructure | Tags : HDFS, Kerberos, Réseau, Hadoop

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de…

RUMMENS Joris

By RUMMENS Joris

5 mars 2019

Introduction à Cloudera Data Science Workbench

Catégories : Data Science | Tags : Cloudera, Docker, Git, Performance, Azure Data Catalog, Azure Data Factory, Cloud, Data Hub, Kubernetes, Machine Learning, Azure, Notebook

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet…

ELALAMI Mehdi

By ELALAMI Mehdi

28 févr. 2019

Apache Knox, c'est facile !

Catégories : Big Data, Cybersécurité, Adaltas Summit 2018 | Tags : Ambari, Hive, Ranger, Shiro, Solr, JDBC, Kerberos, LDAP, Active Directory, REST, Hadoop, Knox, Log4j, SSL/TLS, SSO

Apache Knox est le point d’entrée sécurisé d’un cluster Hadoop, mais peut-il être également le point d’entrée de mes applications REST ? Vue d’ensemble d’Apache Knox Apache Knox est une passerelle…

HATOUM Michael

By HATOUM Michael

4 févr. 2019

Installation de Kubernetes sur CentOS 7

Catégories : Orchestration de conteneurs | Tags : CentOS, cgroups, CNCF, DevOps, Docker, Infrastructure, Namespaces, Red Hat, VM, Ceph, Kubernetes

Cet article présente la démarche à suivre afin d’installer un cluster Kubernetes. Chaque étape sera détaillée afin que ayez une compréhension approfondie de chacune d’elle. Cet article s’appuie sur ma…

BUSSER Arthur

By BUSSER Arthur

29 janv. 2019

Les identités auto-souveraines

Catégories : Gouvernance des données | Tags : Authentification, Blockchain, GitHub, Livre de compte (ledger), Cloud, GitLab, IAM

Vers une identité numérique fiable, personnelle, persistante et portable pour tous. Problèmes d’identité numérique Les identités auto-souveraines sont une tentative de redéfinir le notion d’identité…

MELLAL Nabil

By MELLAL Nabil

22 janv. 2019

Apprentissage par renforcement appliqué au jeu de Poker

Catégories : Data Science | Tags : Algorithme, Deep Learning, Jeu, Q-learning, Machine Learning, Réseau de neurones, Python

Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…

BLAZEJEWSKI Oscar

By BLAZEJEWSKI Oscar

9 janv. 2019

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.