Clustering

Un cluster, signifiant “grappe” en français, représente un groupe de serveurs vu comme un seul pour obtenir plus de puissance et de disponibilité. Plusieurs architectures existent, la plus courante étant celle dites “actif/actif” dans laquelle chaque serveur est prêt à travailler en permanence. Cette architecture nécessite une répartition de charges qui peut être statique ou dynamique. Les requêtes sont alors réparties selon des règles précises (statique) ou alors selon un algorithme d’ordonnancement (dynamique). La mise en place de clusters inclut notamment des notions de tolérance aux pannes comme le transfert du processus d’un serveur en cas de défaillance de celui-ci, ou encore la capacité d’intégration de serveurs dans un cluster sans avoir à le redémarrer intégralement.

Articles associés

Optimisation d'applicationS Spark dans Hadoop YARN

Catégories : Data Engineering, Formation | Tags : Spark, Performance, Hadoop, Python

Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…

DE BAECQUE Ferdinand

By DE BAECQUE Ferdinand

30 mars 2020

Spark Streaming partie 4 : clustering avec Spark MLlib

Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Scala, Streaming, Clustering, Machine Learning

Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

11 juil. 2019

Environnement de développement CoreOS avec Vagrant et VirtualBox

Catégories : Hack, Infrastructure | Tags : Arch Linux, CoreOS, Linux, VirtualBox, etcd, Vagrant

Suivre les instructions de CoreOS sur la façon de configurer un environnement de développement dans VirtualBox n’a pas bien fonctionné pour moi. Voici les étapes que j’ai suivies pour que Container…

BUSSER Arthur

By BUSSER Arthur

20 juin 2018

Administration Hadoop multitenant avancée - protection de Zookeeper

Catégories : Big Data, Infrastructure | Tags : Zookeeper, DoS, iptables, Exploitation, Passage à l'échelle, Clustering, Consensus

Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…

SAUVAGE Pierre

By SAUVAGE Pierre

5 juil. 2017

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.