Infrastructure

Because of its importance within a Big Data project, we help you define and implement the appropriate infrastructure that is compatible with your existing and anticipated IT environment.

Our skills cover key topics in design and architecture such as networking, monitoring, diagnostics and reporting, automated deployment, configuration and security. Our expertise extends to a multitude of technologies and distributions.

We have repeatedly secured with Kerberos distributions from Hortonworks, Cloudera and MapR, and have the experience of conducting workshops with several players in your organization to integrate Big Data platforms with technologies such as SSL, Active Directory, FreeIPA, MIT Kerberos, and OpenLDAP.

CloudOn-PremiseExecute workloads across heterogeneous operating systems, plateforms and cloud providersVirtualContainerVirtualBare MetalCompatible with virtualization hypervisors and container schedulers

Articles related to IT infrastructure

CDP partie 3 : activation des Data Services en environnment CDP Public Cloud

CDP partie 3 : activation des Data Services en environnment CDP Public Cloud

Categories: Big Data, Cloud computing, Infrastructure | Tags: Infrastructure, AWS, Big Data, Cloudera, CDP

L’un des principaux arguments de vente de Cloudera Data Platform (CDP) est la maturité de son offre de services. Ceux-ci sont faciles à déployer sur site, dans le cloud public ou dans le cadre d’une…

KONRAD Albert

By KONRAD Albert

Jun 27, 2023

CDP partie 2 : déploiement d'un environnement CDP Public Cloud sur AWS

CDP partie 2 : déploiement d'un environnement CDP Public Cloud sur AWS

Categories: Big Data, Cloud computing, Infrastructure | Tags: Infrastructure, AWS, Big Data, Cloud, Cloudera, CDP, Cloudera Manager

La Cloudera Data Platform (CDP) Public Cloud constitue la base sur laquelle des lacs de données (Data Lake) complets sont créés. Dans un article précédent, nous avons présenté la plateforme CDP. Cet…

KONRAD Albert

By KONRAD Albert

Jun 19, 2023

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

Categories: Cloud computing, Data Engineering, Infrastructure | Tags: Data Engineering, Hortonworks, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, Entrepôt de données (Data Warehouse)

Cloudera Data Platform (CDP) est une data platform hybride pour l’intégration de donnée, le machine learning et l’analyse de la data. Dans cette série d’articles nous allons décrire comment installer…

BAUM Stephan

By BAUM Stephan

Jun 8, 2023

Exigences et attentes d'une plateforme Big Data

Exigences et attentes d'une plateforme Big Data

Categories: Big Data, Infrastructure | Tags: Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science

Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…

WORMS David

By WORMS David

Mar 23, 2023

Déploiement de Keycloak sur EC2

Déploiement de Keycloak sur EC2

Categories: Cloud computing, Data Engineering, Infrastructure | Tags: EC2, sécurité, Authentification, AWS, Docker, Keycloak, SSL/TLS, SSO

Pourquoi utiliser Keycloak Keycloak est un fournisseur d’identité open source (IdP) utilisant l’authentification unique SSO. Un IdP est un outil permettant de créer, de maintenir et de gérer les…

BAUM Stephan

By BAUM Stephan

Mar 14, 2023

Gestion de Kafka dans Kubernetes avec Strimzi

Gestion de Kafka dans Kubernetes avec Strimzi

Categories: Big Data, Orchestration de conteneurs, Infrastructure | Tags: Kafka, Big Data, Kubernetes, Open source, Streaming

Kubernetes n’est pas la première plateforme à laquelle on pense pour faire tourner des clusters Apache Kafka. En effet, la forte adhérence de Kafka au stockage pourrait être difficile à gérer par…

SCHOUKROUN Leo

By SCHOUKROUN Leo

Mar 7, 2023

Plongée dans tdp-lib, le SDK en charge de la gestion de clusters TDP

Plongée dans tdp-lib, le SDK en charge de la gestion de clusters TDP

Categories: Big Data, Infrastructure | Tags: Programmation, Ansible, Hadoop, Python, TDP

Tous les déploiements TDP sont automatisés. Ansible y joue un rôle central. Avec la complexité grandissante de notre base logicielle, un nouveau système était nécessaire afin de s’affranchir des…

BOUTRY Guillaume

By BOUTRY Guillaume

Jan 24, 2023

Stage infrastructure big data

Stage infrastructure big data

Categories: Big Data, Data Engineering, DevOps & SRE, Infrastructure | Tags: Infrastructure, Hadoop, Big Data, Cluster, Internship, Kubernetes, TDP

Présentation de l’offre Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance, l’optimisation et nouvellement le…

BAUM Stephan

By BAUM Stephan

Dec 2, 2022

Traefik, Docker et dnsmasq pour simplifier la mise en réseau des conteneurs

Traefik, Docker et dnsmasq pour simplifier la mise en réseau des conteneurs

Categories: Orchestration de conteneurs, Infrastructure, Tech Radar | Tags: DNS, Gatsby, JAMstack, Linux, Docker, Réseau

Les bonnes aventures technologiques commencent par une certaine frustration, un besoin ou une exigence. C’est l’histoire de la façon dont j’ai simplifié la gestion et l’accès de mes applications Web…

WORMS David

By WORMS David

Nov 17, 2022

WasmEdge : Les runtimes WebAssembly sont en routes pour l'edge computing

WasmEdge : Les runtimes WebAssembly sont en routes pour l'edge computing

Categories: Orchestration de conteneurs, Adaltas Summit 2021, Infrastructure, Tech Radar | Tags: JAMstack, Linux, Docker, Rust Lang, WebAssembly

Avec de nombreux de nombreux défis en matière de sécurité résolus de par sa conception, beaucoup de projets bénéficient de l’utilisation du WebAssembly. Le runtime WasmEdge est une machine virtuelle…

BOUTRY Guillaume

By BOUTRY Guillaume

Sep 29, 2022

Ingress et Load Balancers dans Kubernetes avec MetalLB et nginx-ingress

Ingress et Load Balancers dans Kubernetes avec MetalLB et nginx-ingress

Categories: Orchestration de conteneurs, Infrastructure, Tech Radar | Tags: Ingress, Kubeadm, Cluster, Déploiement, Kubernetes

Lorsque l’on souhaite exposer des services depuis un cluster Kubernetes et les rendre accessibles depuis l’extérieur du cluster, la solution la plus adéquate est d’utiliser des services de type load…

COTTART Kellian

By COTTART Kellian

Sep 8, 2022

Intégration de Spark et Hadoop dans Jupyter

Intégration de Spark et Hadoop dans Jupyter

Categories: Adaltas Summit 2021, Infrastructure, Tech Radar | Tags: Infrastructure, Jupyter, Spark, YARN, CDP, HDP, Notebook, TDP

Depuis quelques années, Jupyter notebook s’impose comme la principale solution de notebook dans l’univers Python. Historiquement, Jupyter est l’outil de prédilection des data scientists développant…

COINTEPAS Aargan

By COINTEPAS Aargan

Sep 1, 2022

Découvrez Trunk Data Platform : La Distribution Big Data Open-Source par TOSIT

Découvrez Trunk Data Platform : La Distribution Big Data Open-Source par TOSIT

Categories: Big Data, DevOps & SRE, Infrastructure | Tags: Ranger, DevOps, Hortonworks, Ansible, Hadoop, HBase, Knox, Spark, Cloudera, CDP, CDH, Open source, TDP

Depuis la fusion de Cloudera et Hortonworks, la sélection de distributions Hadoop commerciales on-prem se réduit à CDP Private Cloud. CDP est un mélange de CDH et de HDP conservant les meilleurs…

SCHOUKROUN Leo

By SCHOUKROUN Leo

Apr 14, 2022

La blockchain pour les nuls 2 : Crypto-monnaies, portefeuilles et DApps

La blockchain pour les nuls 2 : Crypto-monnaies, portefeuilles et DApps

Categories: Adaltas Summit 2021, Infrastructure | Tags: Cryptographie, Infrastructure, Blockchain, Consensus

Beaucoup de gens possèdent des crypto-monnaies aujourd’hui. Mais détenir quelques tokens sur un échange ne signifie pas interagir avec la blockchain. Les actifs que vous tradez ne sont que des nombres…

LEONARD Gauthier

By LEONARD Gauthier

Apr 12, 2022

Apache HBase : colocation de RegionServers

Apache HBase : colocation de RegionServers

Categories: Big Data, Adaltas Summit 2021, Infrastructure | Tags: Ambari, Base de données, Infrastructure, Performance, Hadoop, HBase, Big Data, HDP, Storage

Les RegionServers sont les processus gérant le stockage et la récupération des données dans Apache HBase, la base de données non-relationnelle orientée colonne de Apache Hadoop. C’est à travers leurs…

BERLAND Pierre

By BERLAND Pierre

Feb 22, 2022

Installation fiable et reproductible de Linux avec NixOS

Installation fiable et reproductible de Linux avec NixOS

Categories: Infrastructure, Formation | Tags: Linux, Packaging, VM, NixOS, TDP

Lors de l’utilisation d’un système d’exploitation, la mise à jour ou l’installation de packages sont des opérations courantes qui présentent un risque pour la stabilité du système. NixOS est une…

MOUAFFO Florent

By MOUAFFO Florent

Feb 8, 2022

Introduction à Nix, concepts fondateurs et principales commandes

Introduction à Nix, concepts fondateurs et principales commandes

Categories: Infrastructure, Formation | Tags: Arch Linux, CentOS, Linux, OS X, Packaging, Ubuntu, NixOS, TDP

Nix est un gestionnaire de packages fonctionnel pour Linux et d’autres systèmes Unix, rendant la gestion des packages plus fiable et reproductible. Avec un gestionnaire de packages traditionnel, lors…

MOUAFFO Florent

By MOUAFFO Florent

Feb 1, 2022

La blockchain pour les nuls 1 : blockchains et mécanismes de consensus

La blockchain pour les nuls 1 : blockchains et mécanismes de consensus

Categories: Adaltas Summit 2021, Infrastructure, Formation | Tags: Cryptographie, Infrastructure, Blockchain, Consensus

Les crypto-monnaies sont en plein essor en 2021, avec une capitalisation boursière passant de 750 à plus de 3 000 milliards de dollars. Soyons honnêtes, cela est principalement dû à la spéculation…

LEONARD Gauthier

By LEONARD Gauthier

Jan 18, 2022

Stage en infrastructure Big Data avec TDP

Stage en infrastructure Big Data avec TDP

Categories: Infrastructure, Formation | Tags: Cybersécurité, DevOps, Java, Ansible, Hadoop, Internship, TDP

Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance et l’optimisation de certains des plus grands clusters de France…

HARTY Daniel

By HARTY Daniel

Oct 25, 2021

Désacraliser le overlay filesystem de Linux dans Docker

Désacraliser le overlay filesystem de Linux dans Docker

Categories: Orchestration de conteneurs, Infrastructure | Tags: DevOps, Système de fichiers, Linux, Docker

Le overlay filesystem (également appelés union filesystems) est une technologie fondamentale dans Docker pour créer des images et des conteneurs. Ils permettent de créer une union de répertoires pour…

WORMS David

By WORMS David

Jun 3, 2021

Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin

Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin

Categories: Big Data, Infrastructure | Tags: Maven, Hadoop, HBase, Hive, Spark, Git, Versions et évolutions, TDP, Tests unitaires

L’écosystème Hadoop a donné naissance à de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus récentes commme Kubernetes et les stockages objets compatibles S…

SCHOUKROUN Leo

By SCHOUKROUN Leo

Dec 18, 2020

Reconstruction de Hive dans HDP : patch, test et build

Reconstruction de Hive dans HDP : patch, test et build

Categories: Big Data, Infrastructure | Tags: Maven, GitHub, Java, Hive, Git, Versions et évolutions, TDP, Tests unitaires

La distribution HDP d’Hortonworks va bientôt être dépreciée a profit de la distribution CDP proposée par Cloudera. Un client nous a demandé d’intégrer d’une nouvelle feature de Apache Hive sur son…

SCHOUKROUN Leo

By SCHOUKROUN Leo

Oct 6, 2020

Installation d'Hadoop depuis le code source : build, patch et exécution

Installation d'Hadoop depuis le code source : build, patch et exécution

Categories: Big Data, Infrastructure | Tags: Maven, Java, LXD, Hadoop, HDFS, Docker, TDP, Tests unitaires

Les distributions commerciales d’Apache Hadoop ont beaucoup évolué ces dernières années. Les deux concurrents Cloudera et Hortonworks ont fusionné : HDP ne sera plus maintenu et CDH devient CDP. HP a…

SCHOUKROUN Leo

By SCHOUKROUN Leo

Aug 4, 2020

Configuration à distance et auto-indexage des pipelines Logstash

Configuration à distance et auto-indexage des pipelines Logstash

Categories: Data Engineering, Infrastructure | Tags: Docker, Elasticsearch, Kibana, Logstash, Log4j

Logstash est un puissant moteur de collecte de données qui s’intègre dans la suite Elastic (Elasticsearch - Logstash - Kibana). L’objectif de cet article est de montrer comment déployer un cluster…

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

Dec 13, 2019

Hadoop Ozone partie 3: Stratégie de réplication avancée avec les Copyset

Hadoop Ozone partie 3: Stratégie de réplication avancée avec les Copyset

Categories: Infrastructure | Tags: HDFS, Ozone, Cluster, Kubernetes, Noeud

Hadoop Ozone propose de configurer le type de réplication à chaque écriture effectué sur le cluster. Actuellement seules HDFS et Ratis sont disponibles mais des stratégies plus avancées sont…

Hadoop Ozone partie 2: tutorial et démonstration des fonctionnalités

Hadoop Ozone partie 2: tutorial et démonstration des fonctionnalités

Categories: Infrastructure | Tags: CLI, Enseignement et tutorial, REST, HDFS, Ozone, Amazon S3, Cluster

Les versions d’Hadoop Ozone sont livrées avec des fichiers docker-compose très pratique pour tester Ozone. Les instructions ci-dessous apportent des détails sur comment les utiliser. Il est aussi…

Hadoop Ozone partie 1: introduction du nouveau système de fichiers

Hadoop Ozone partie 1: introduction du nouveau système de fichiers

Categories: Infrastructure | Tags: HDFS, Ozone, Cluster, Kubernetes

Hadoop Ozone est système de stockage d’objet pour Hadooop. Il est conçu pour supporter des milliards d’objets de tailles diverses. Il est actuellement en développement. La feuille de route est…

Multihoming avec Hadoop

Multihoming avec Hadoop

Categories: Infrastructure | Tags: Kerberos, Hadoop, HDFS, Réseau

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de…

RUMMENS Joris

By RUMMENS Joris

Mar 5, 2019

Jumbo, le bootstrapper de clusters Hadoop

Jumbo, le bootstrapper de clusters Hadoop

Categories: Infrastructure | Tags: Ambari, Automation, REST, Ansible, Cluster, Vagrant, HDP

Présentation de Jumbo, un bootstrapper de cluster Hadoop pour les développeurs. Jumbo vous aide à déployer des environnements de développement pour les technologies Big Data. Il suffit de quelques…

LEONARD Gauthier

By LEONARD Gauthier

Nov 29, 2018

Migration de cluster et de traitements entre Hadoop 2 et 3

Migration de cluster et de traitements entre Hadoop 2 et 3

Categories: Big Data, Infrastructure | Tags: Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…

BAKALIAN Lucas

By BAKALIAN Lucas

Jul 25, 2018

Environnement de développement CoreOS avec Vagrant et VirtualBox

Environnement de développement CoreOS avec Vagrant et VirtualBox

Categories: Hack, Infrastructure | Tags: Arch Linux, CoreOS, Linux, VirtualBox, etcd, Vagrant

Suivre les instructions de CoreOS sur la façon de configurer un environnement de développement dans VirtualBox n’a pas bien fonctionné pour moi. Voici les étapes que j’ai suivies pour que Container…

BUSSER Arthur

By BUSSER Arthur

Jun 20, 2018

Orchestration de conteneurs chez Facebook avec Tupperware

Orchestration de conteneurs chez Facebook avec Tupperware

Categories: Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags: Btrfs, LXD, Red Hat, Systemd, Zookeeper, Cloud, Consensus

Dans cet article, je présenterai la solution d’orchestration de conteneurs mise en place par Facebook, appelée Tupperware. Qu’est-ce que Tupperware ? Tupperware est un framework fait maison écrit et…

BAKALIAN Lucas

By BAKALIAN Lucas

Nov 3, 2017

Personne* ne met Java dans un containeur

Personne* ne met Java dans un containeur

Categories: Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags: cgroups, Java, JRE, JVM, Namespaces, Docker

Cette discussion porte sur les problèmes de mettre Java dans un conteneur et comment, dans sa dernière version 9, le JDK est maintenant plus conscient du conteneur dans lequel il s’exécute. La…

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

Oct 28, 2017

MariaDB integration with Hadoop

MariaDB integration with Hadoop

Categories: Infrastructure | Tags: Base de données, HA, MariaDB, Hadoop, Hive

Lors d’ateliers menés avec l’un de nos clients, Adaltas a levé un risque potentiel sur la stratégie utilisée pour la mise en haute disponibilité (HA) de MariaDB. Le client ayant sélectionné la…

WORMS David

By WORMS David

Jul 31, 2017

Exposition de brokers Kafka sur deux interfaces réseaux

Exposition de brokers Kafka sur deux interfaces réseaux

Categories: Infrastructure | Tags: Cybersécurité, VLAN, Kafka, Cloudera, CDH, Réseau

Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…

BEREZOWSKI César

By BEREZOWSKI César

Jul 22, 2017

MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit

MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit

Categories: Big Data, DevOps & SRE, Infrastructure | Tags: MiNiFi, NiFi, C++, HDF, Cloudera, HDP, IOT

Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…

BEREZOWSKI César

By BEREZOWSKI César

Jul 8, 2017

Administration Hadoop multitenant avancée - protection de Zookeeper

Administration Hadoop multitenant avancée - protection de Zookeeper

Categories: Big Data, Infrastructure | Tags: DoS, iptables, Exploitation, Passage à l'échelle, Zookeeper, Clustering, Consensus

Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…

SAUVAGE Pierre

By SAUVAGE Pierre

Jul 5, 2017

Supervision de clusters HDP

Supervision de clusters HDP

Categories: Big Data, DevOps & SRE, Infrastructure | Tags: Alert, Ambari, Métriques, Supervision, REST, HDP

Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…

RUMMENS Joris

By RUMMENS Joris

Jul 5, 2017

Chef : configuration et deploiement automatisé de Clusters

Chef : configuration et deploiement automatisé de Clusters

Categories: DevOps & SRE, Infrastructure | Tags: Automation, Chef, Enseignement et tutorial, Puppet, Hadoop, Déploiement

L’installation d’un cluster de plusieurs machines est consommateur de temps. La même procédure de mise en place des logiciels et de leurs paramétrages doit être répétée à l’identique. Au cours du…

WORMS David

By WORMS David

Dec 10, 2010

Canada - Morocco - France

We are a team of Open Source enthusiasts doing consulting in Big Data, Cloud, DevOps, Data Engineering, Data Science…

We provide our customers with accurate insights on how to leverage technologies to convert their use cases to projects in production, how to reduce their costs and increase the time to market.

If you enjoy reading our publications and have an interest in what we do, contact us and we will be thrilled to cooperate with you.

Support Ukrain