Hadoop

Spark Streaming Partie 2 : traitement d’une pipeline Spark Structured Streaming dans Hadoop

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l'orchestration de tâches. Ainsi, Spark Structured Streaming s'intègre bien dans une infrastructure Big Data. Une chaîne de traitement des données streaming sera présentée, cette fois dans un environnement distribué. Ceci est [...]

Par |2019-07-11T22:10:21+00:00May 28th, 2019|Big Data, Data Engineering|0 commentaire

Multihoming sur Hadoop

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de multihoming et à ses applications sur des cas d’usages concrets. […]

Surveillance d’un cluster Hadoop de production avec Kubernetes

La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui concerne la surveillance la plus simple, elle n’est pas en mesure de répondre aux besoins de lancement de vérifications plus poussés. Dans cet [...]

Par |2018-12-21T16:31:26+00:00December 21st, 2018|Conteneur, Data Engineering, DevOps|0 commentaire

Une semaine à discuter techno isolés dans un riad Marocain

Adaltas organise sa première conférence entre les 22 et 26 Octobre. Au programme de ces 5 jours de conférence: discuter de technologie dans l'un des plus beau riad de Marrakech. Mélanger l'utile à l'agréable, apprendre et partager les pieds en évantail dans la piscine. La règle est simple, chaque participant s'engage à intervenir au minimum [...]

Par |2019-07-17T13:57:56+00:00October 14th, 2018|Adaltas Summit 2018|0 commentaire

Apache Apex: l’analytique Big Data nouvelle génération

Ci-dessous une compilation de mes notes prises lors de la présentation d'Apache Apex par Thomas Weise de DataTorrent, l'entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements parallélisés en mémoire, comme Flink ou Storm. Cependant, il est développé avec une intégration native d'Hadoop : Yarn est utilisé pour la gestion des ressources HDFS [...]

Hive, Calcite et Druid

BI/OLAP est nécessaire à la visualisation interactive de flux de données: Évènements issus d'enchères en temps réel Flux d'activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de pare-feu Indicateur clé de performance (KPIs) applicatif Solutions Traditionnelles RDBMS (Mysql..): ne passe pas l'échelle, nécessité de mise en cache mais les requêtes adhoc restent lentes [...]

Par |2019-06-21T22:05:26+00:00July 14th, 2016|Big Data|0 commentaire

L’offre Red Hat Storage et son intégration avec Hadoop

J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins partiellement. Je terminerai par l’intégration entre Red Hat Storage et Hadoop, plus particulièrement ce qu’on peut en attendre avant de mener une expérimentation en [...]

Par |2019-06-21T20:41:08+00:00July 3rd, 2016|Big Data|0 commentaire

Stockage et traitement massif avec Hadoop

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés par un large éventail de projets R&D pour un nombre croissant d’acteurs du web (Yahoo!, EBay, Facebook, LinkedIn, Twitter) et leur taille ne cesse d’augmenter. Yahoo! regroupe [...]

Par |2019-06-23T21:32:15+00:00November 26th, 2010|Big Data|0 commentaire