Big Data

Gestion des identités utilisateurs sur clusters Big Data

La sécurisation d'un cluster Big Data implique l'intégration ou le déploiement de services spécifiques pour stocker les utilisateurs. Certains utilisateurs sont spécifiques à un cluster lorsque d'autres sont partagés entre tous les clusters. Il n'est pas toujours clair de savoir comment ces différents services s'articulent et s'ils doivent être partagés entre plusieurs clusters. Aussi, quelle [...]

Par |2018-11-08T12:33:44+00:00November 8th, 2018|Big Data, Cyber security|0 commentaire

Apache Flink: passé, présent et futur

Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la Flink Forward 2018. […]

Par |2018-11-15T11:08:44+00:00November 5th, 2018|Big Data, Data Engineering|0 commentaire

Déploiement d’un cluster Flink sécurisé sur Kubernetes

Le déploiement sécurisée d’une application Flink dans Kubernetes offre deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser les solutions natives de Flink pour sécuriser votre application de l’intérieur. Notez que ces deux solutions ne sont pas mutuellement exclusive. […]

Par |2018-10-09T11:25:39+00:00October 8th, 2018|Big Data, Cyber security|0 commentaire

Migration de cluster et de traitements entre Hadoop 2 et 3

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et apporter de nouvelles opportunités, comment vos traitements actuels sont-ils impactés, quelle stratégie de migration est la plus appropriée pour votre entreprise ? […]

Par |2018-08-17T09:36:55+00:00July 25th, 2018|Big Data|0 commentaire

Remède à l’aveuglement de Kafka

Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt disponible. L’interface fut présenté par George Vettcaden, VP Management product chez Hortonworks, en avant première lors de la conférence du DataWorks Summit de Juin 2018 à [...]

Par |2018-06-21T13:08:45+00:00June 20th, 2018|Big Data, DataWorks Summit 2018|0 commentaire

Exécuter des workloads d’entreprise dans le Cloud avec Cloudbreak

Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement automatique d’Hortonworks pour le Cloud: Cloudbreak, décrira et commentera certaines fonctionnalités expliquées par Peter et Richard, et donnera des recommandations personnelles sur quand et pourquoi [...]

Par |2018-06-06T09:15:51+00:00May 28th, 2018|Big Data, DataWorks Summit 2018|1 Comment

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés / valeurs NoSQL. […]

Le futur de l’orchestration de workflows dans Hadoop: Oozie 5.x

Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister a une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir dans la branche 5.X. Elle détaille ainsi le Workflow Scheduler d’Apache Ambari et son utilisation pour créer et visualiser des workflows Apache Oozie. [...]

Par |2018-06-05T22:36:38+00:00May 23rd, 2018|Big Data, DataWorks Summit 2018|1 Comment

Questions essentielles sur les base de données Time Series

Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes, véhicules connectés… IoT et Big Data font bon ménage. […]

Par |2018-06-05T22:36:40+00:00March 19th, 2018|Big Data, Data Engineering|3 Commentaires

Ambari – Comment utiliser les blueprints

En tant qu'ingénieurs d'infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d'utiliser une distribution telle que HDP ou CDH, qui viennent avec leurs solutions de déploiement: Ambari et Cloudera Manager respectivement. Ces outils permettent de déployer des clusters facilement depuis leurs interfaces simples et bien documentées. Bien que pratique [...]

Par |2018-06-05T22:36:41+00:00January 17th, 2018|Big Data|0 commentaire