Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations lors de la construction de ces infrastructures est la capacité de surveiller en permanence la santé du cluster et de signaler les problèmes le plus rapidement possible. C’est là qu’intervient la supervision.

Il existe presque autant de politiques de supervision que de sociétés différentes. La plupart d’entre eux ont leurs propres outils de supervision, et les clusters Big Data doivent être adaptés à ceux-ci. Cet article traite de l’intégration d’un cluster HDP 2.4.2 dans le processus de supervision de l’un de nos clients.

Ambari-Alerts : la solution de supervision dans HDP

Sur une solution HDP, de nombreux éléments peuvent avoir une incidence sur la santé du cluster global, des composants de la plate-forme à la communication via le réseau, y compris l’utilisation du processeur, de la RAM et des disques par les nœuds.

Ambari surveille déjà de nombreux éléments et expose leurs statuts avec l’API REST d’Ambari-Alerts. Les alertes peuvent être personnalisées pour répondre aux besoins de l’entreprise, et des alertes personnalisées peuvent être ajoutées pour gérer les composants qui peuvent ne pas être supervisés par les alertes par défaut d’ambari.

Pour répertorier toutes les définitions d’alertes disponibles sur votre cluster, utilisez :

Ceci imprimera environ 70 alertes par défaut déjà activées et rapportant divers états de santé sur l’interface Web d’Ambari. Certains paramètres, tels que l’intervalle de vérification ou les seuils de criticité, peuvent être directement modifiés dans l’onglet Alerte de l’interface Web. Pour visualiser et / ou modifier d’autres paramètres spécifiques à une alerte, utilisez : Cela retournera quelque chose comme :

Supervision chez notre client

Bien que les alertes d’Ambari permettent déjà une supervision complète des clusters via son interface Web, elles ne sont pas entièrement conformes aux politiques de nos clients. Une seule équipe de “pilotage” doit surveiller tous les environnements de l’entreprise et résoudre un problème lorsqu’une alerte apparaît. Le problème est attribué à l’équipe d’exploitation appropriée, qui s’efforce ensuite de résoudre le problème.

La solution de surveillance utilisée ici est Operation-Manager de HP. Tous les environnements doivent fournir leurs vérifications de l’état d’une manière accessible par HP-OM.

Dans notre cas, nous avons décidé de fournir un fichier journal auquel nous ajoutons régulièrement toutes les informations relatives aux alertes d’ambari. Nous avons utilisé un script python personnalisé pour demander chaque état d’alerte Ambari activé avec son API REST et pour l’imprimer sur une ligne du fichier journal.

HP-OM lit chaque nouvelle ligne ajoutée au fichier journal, recherche les mots-clés CRITICAL ou UNKNOWN et envoie la ligne à l’équipe de pilotage si l’un de ces termes apparaît. Le membre de pilotage qui reçoit l’alerte crée une issue et place la ligne du log dans la description de celle-ci. Enfin, l’équipe d’exploitation affectant l’environnement dans lequel l’alerte est apparue traite le problème à l’aide de la ligne de log présente dans la description.

supervision

Information additionnelle

Ambari-Alerts n’est pas le seul moyen d’obtenir des informations sur la santé de votre cluster. En fait, il est construit de manière à permettre beaucoup de personnalisation. Vous pouvez écrire vos propres scripts pour obtenir les informations souhaitées et les intégrer en tant qu’alerte dans ambari. Cela maintient votre processus de supervision au même endroit. Mais vous pouvez également utiliser d’autres sources d’informations.

Ambari-Metrics en est un exemple. Lorsqu’il est activé, chaque métrique de service et d’hôte HDP est surveillée par Ambari-Metrics et le résultat peut être visualisé sur une interface Web Grafana ou interrogé via son API REST. Des métriques globales de cluster sont également disponibles.

Pour obtenir une liste des métriques des services surveillés par Ambari-Metrics, utilisez :

Those metrics can then be used as sources to create more custom alerts. It was not implemented for customer’s use case because the default alerts were enough to handle the needs. However, the solution was still studied and may be implemented in the future if the supervision requirements of the company evolve.