Introduction

Dans les environnements de production complexes, les serveurs disposent généralement de plusieurs interfaces réseau. Ce paramétrage se justifie pour des raisons de performances, d’isolation du réseau, d’obligation légale, de règle métier ou toutes autres raisons spécifiques aux clients. Hadoop doit donc pouvoir gérer ces réseaux multiples et honorer le bon routage des données.

Duration: 1h00
Format: talk

Présentation

Avoir plusieurs réseaux en production ouvre diverses possibilités de gouvernance. Par exemple utiliser un réseau dédié à votre cluster Hadoop, et un autre pour communiquer avec celui-ci depuis des composants externes. Ou définir un réseau particulier pour les communications inter-composants, et un autre lorsque les clients accèdent à l’un d’eux. Ou tout à la fois dans le cas d’une architecture PRA, dans laquelle vous mettez à disposition un réseau haute-performance entre deux clusters distants pour leurs traitements de sauvegarde de données, chacun d’entre eux ayant leur propre architecture multi-réseau pour séparer les communications inter-composants et les accès clients.

Pour cette présentation, nous expliquerons principalement comment configurer HDFS pour définir le bon réseau aux tâches associées.

Ce qui sera abordé:

  • le pourquoi: les raisons pour lesquelles définir une architecture multi-réseau a du sens
  • le quoi: les composants de l’infrastructure à connaitre pour cette architecture
  • le comment: les propriétés de configuration à définir à cet effet

Auteur

Joris est un administrateur BigData avec une expérience de développeur Java. Il a travaillé pour plusieurs organisations ayant chacune leurs propres environnements et besoins, des missions d’expertise et d’assistance, des départements BigData, ainsi que des architectes logiciels Hortonworks, ainsi que des postes opérationnels et de soutien aux entreprises.