HDFS

Multihoming sur Hadoop

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de multihoming et à ses applications sur des cas d’usages concrets. […]

Gestion des identités utilisateurs sur clusters Big Data

La sécurisation d'un cluster Big Data implique l'intégration ou le déploiement de services spécifiques pour stocker les utilisateurs. Certains utilisateurs sont spécifiques à un cluster lorsque d'autres sont partagés entre tous les clusters. Il n'est pas toujours clair de savoir comment ces différents services s'articulent et s'ils doivent être partagés entre plusieurs clusters. Aussi, quelle [...]

Par |2018-11-08T12:33:44+00:00November 8th, 2018|Big Data, Cyber security|0 commentaire

Déploiement d’un cluster Flink sécurisé sur Kubernetes

Le déploiement sécurisé d’une application Flink dans Kubernetes offre deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser les solutions natives de Flink pour sécuriser votre application de l’intérieur. Notez que ces deux solutions ne sont pas mutuellement exclusives. […]

Par |2019-02-08T12:20:25+00:00October 8th, 2018|Big Data, Cyber security|0 commentaire

Migration de cluster et de traitements entre Hadoop 2 et 3

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et apporter de nouvelles opportunités, comment vos traitements actuels sont-ils impactés, quelle stratégie de migration est la plus appropriée pour votre entreprise ? […]

Par |2019-02-08T10:25:26+00:00July 25th, 2018|Big Data|0 commentaire

Ingestion de Data Lake, quelques bonnes pratiques

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en place lorsque nous accompagnons nos clients. […]

Par |2019-02-07T18:45:01+00:00June 18th, 2018|Data Engineering, DevOps|0 commentaire

L’offre Red Hat Storage et son intégration avec Hadoop

J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins partiellement. Je terminerai par l’intégration entre Red Hat Storage et Hadoop, plus particulièrement ce qu’on peut en attendre avant de mener une expérimentation en [...]

Par |2019-06-21T20:41:08+00:00July 3rd, 2016|Big Data|0 commentaire

Stockage HDFS et Hive – comparaison entre les formats de fichiers et les méthodes de compression

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS et s’appliquent à tous les utilisateurs d’Hadoop. La suite de tests est composée de requête Hive toutes similaires qui créent une [...]

Par |2019-06-25T10:33:54+00:00July 15th, 2012|Data Engineering|0 commentaire

Deux Hive UDAF pour convertir une aggregation vers une map

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java: "UDAFToMap" et "UDAFToOrderedMap" ou vous pouvez télécharger le fichier jar. La première fonction convertit une agrégation en une map et utilise en interne un HashMap Java. La deuxième [...]

Par |2019-06-25T10:25:42+00:00March 6th, 2012|Data Engineering|0 commentaire

Stockage et traitement massif avec Hadoop

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés par un large éventail de projets R&D pour un nombre croissant d’acteurs du web (Yahoo!, EBay, Facebook, LinkedIn, Twitter) et leur taille ne cesse d’augmenter. Yahoo! regroupe [...]

Par |2019-06-23T21:32:15+00:00November 26th, 2010|Big Data|0 commentaire