Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré manuellement. Seuls quelques paquets sont installés par Macport mais ceux-ci sont aisément trouvables sur des outils équivalents comme Apt et Yum. Etant donné que les logiciels téléchargés sont en Java, il ne devrait pas y avoir de soucis quant à leur fonctionnement dans d’autres environnements.

Cet environnement est configuré en mode pseudo-distribué afin de simuler au mieux le comportement d’un cluster si un poste unique. Dans ce mode, chaque processus Java tourne dans sa propre JVM.

La procédure couvre l’installation des logiciels suivants:

Choix des versions

L’installation des logiciels depuis les dépôts SVN s’est confrontée à un problème d’incompatibilité entre Hive qui requiert la dernière version stable de Hadoop (2.20.2) et celle de Sqoop qui requiert la version SVN de Hadoop. Pour cette raison, nous avons opté pour les versions distribuées par Cloudera. Basées sur des versions stables, elles incluent un grand nombre des patches présents dans les dépôts SVN et sont testés par certains des meilleurs experts de la communauté.

Toutefois, certaines fonctionnalités ne sont pas encore présentes dès la distribution, c’est pourquoi certains d’entre nous utilisent aussi des versions compilées depuis les dépôts SVN. Les logiciels en question sont HBase et Hive et leur installation manuelle n’est pas couverte ci-dessous.

Installation

La procédure décrite part du postulat que XCode et MacPort sont déjà présents sur le système.

La distribution de Cloudera est CDH3beta2 qui n’est pas la plus récente mais le mécanisme est le même à condition de se rendre sur le site de Cloudera et de télécharger les versions les plus récentes. Dépendances MacPort

Mise en place de SSH Préparation du répertoire d’installation Téléchargement des paquets Extraction des paquets Configuration de l’environnement Configuration des logiciels

Utilisation

Démarrage des services

Arrêt des services

Administration

Si l’installation s’est déroulée sans encombre, les URLs suivantes devrait être disponibles:

  • Hadoop Map/Reduce Administration: http://localhost:50030
  • Hadoop File System Browser: http://localhost:50070
  • Hadoop Task Tracker Status: http://localhost:50060
  • Hue: http://localhost:8088