Clustering

Un cluster, signifiant “grappe” en français, représente un groupe de serveurs vu comme un seul pour obtenir plus de puissance et de disponibilité.

Plusieurs architectures existent, la plus courante étant celle dites “actif/actif” dans laquelle chaque serveur est prêt à travailler en permanence. Cette architecture nécessite une répartition de charges qui peut être statique ou dynamique. Les requêtes sont alors réparties selon des règles précises (statique) ou alors selon un algorithme d’ordonnancement (dynamique).

La mise en place de clusters inclut notamment des notions de tolérance aux pannes comme le transfert du processus d’un serveur en cas de défaillance de celui-ci, ou encore la capacité d’intégration de serveurs dans un cluster sans avoir à le redémarrer intégralement.

En savoir plus: Wikipédia

Articles associés

Administration Hadoop multitenant avancée - protection de Zookeeper

Catégories : Big Data, Infrastructure | Tags : DoS, iptables, Exploitation, Passage à l'échelle, Zookeeper, Clustering, Consensus

Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…

Par SAUVAGE Pierre

5 juil. 2017

Environnement de développement CoreOS avec Vagrant et VirtualBox

Catégories : Hack, Infrastructure | Tags : Arch Linux, CoreOS, Linux, VirtualBox, etcd, Vagrant

Suivre les instructions de CoreOS sur la façon de configurer un environnement de développement dans VirtualBox n’a pas bien fonctionné pour moi. Voici les étapes que j’ai suivies pour que Container…

Par BUSSER Arthur

20 juin 2018

Optimisation d'applicationS Spark dans Hadoop YARN

Catégories : Data Engineering, Formation | Tags : Performance, Hadoop, Spark, Python

Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…

Par DE BAECQUE Ferdinand

30 mars 2020

Spark Streaming partie 4 : clustering avec Spark MLlib

Catégories : Data Engineering, Data Science, Formation | Tags : Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming

Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…

Par RYNKIEWICZ Oskar

27 juin 2019