Cluster

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark MLlib est une bibliothèque Spark d'Apache offrant des implémentations performantes de divers algorithmes d'apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut servir de plateforme pour développer des systèmes d’apprentissage automatique. Un modèle de Machine Learning (ML) développé avec Spark MLlib peut être associé à un pipeline de streaming crée avec Spark [...]

Surveillance d’un cluster Hadoop de production avec Kubernetes

La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui concerne la surveillance la plus simple, elle n’est pas en mesure de répondre aux besoins de lancement de vérifications plus poussés. Dans cet [...]

Par |2018-12-21T16:31:26+00:00December 21st, 2018|Conteneur, Data Engineering, DevOps|0 commentaire