Big Data

Nous engageons toute notre expertise dans l’accompagnement de vos besoins et des enjeux de votre Système d’Information. La croissance des données de par leur volume, leur variété et leur vitesse entraîne des approches novatrices. Aujourd’hui, les organisations peuvent accumuler d’énormes quantités d’informations dans un DataLake pour des analyses futures. Pour celles ne disposant pas de l’infrastructure nécessaire, ce DataLake peut facilement être mis en oeuvre sur le Cloud.

Avec le Big Data, la Business Intelligence entame une nouvelle ère. Hadoop, les bases de données NoSQL et les fournisseurs de Cloud stockent et représentent les données structurées et non structurées ainsi que les séries temporelles tels que vos logs et capteurs. De la collecte jusqu’à la visualisation, l’ensemble de la chaîne de traitement peut se réaliser par batch et en temps réel.

Big Data

Articles associés au Big Data

Mise en production d'un modèle de Machine Learning

Mise en production d'un modèle de Machine Learning

Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : IA, Cloud, DevOps, Machine Learning, On-premise, Exploitation, Schéma

“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…

By RYNKIEWICZ Oskar

30 sept. 2019

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, Cloudera, Data Warehouse, JDBC, LLAP, Active Directory, Versions et évolutions, Hadoop

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

By LEONARD Gauthier

25 juil. 2019

Auto-scaling de Druid avec Kubernetes

Auto-scaling de Druid avec Kubernetes

Catégories : Big Data, Business Intelligence, Orchestration de conteneurs | Tags : EC2, Druid, Cloud, CNCF, Orchestration de conteneurs, Analyse de données, Helm, Kubernetes, Métriques, OLAP, Exploitation, Prometheus, Python

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est…

By LEO Schoukroun

16 juil. 2019

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Spark, Apache Spark Streaming, DevOps, Enseignement et tutorial

L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…

By RYNKIEWICZ Oskar

19 juin 2019

Intégration de Druid et Hive

Intégration de Druid et Hive

Catégories : Big Data, Business Intelligence, Tech Radar | Tags : Druid, Hive, Analyse de données, Enseignement et tutorial, LLAP, OLAP, SQL

Nous allons dans cet article traiter de l’intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l’article Ultra-fast OLAP Analytics with Apache Hive and Druid.…

By SAUVAGE Pierre

13 juin 2019

Apache Knox, c'est facile !

Apache Knox, c'est facile !

Catégories : Big Data, Cybersécurité, Adaltas Summit 2018 | Tags : Ambari, Hive, Knox, Ranger, Shiro, Solr, JDBC, Kerberos, LDAP, Active Directory, REST, SSL/TLS, Hadoop, SSO

Apache Knox est le point d’entrée sécurisé d’un cluster Hadoop, mais peut-il être également le point d’entrée de mes applications REST ? Vue d’ensemble d’Apache Knox Apache Knox est une passerelle…

By HATOUM Michael

4 févr. 2019

Prise de contrôle d'un cluster Hadoop avec Apache Ambari

Prise de contrôle d'un cluster Hadoop avec Apache Ambari

Catégories : Big Data, DevOps & SRE, Adaltas Summit 2018 | Tags : Ambari, Automation, HDP, iptables, Kerberos, Nikita, Node.js, REST, Systemd

Nous avons récemment migré un large cluster Hadoop de production installé “manuellement” vers Apache Ambari. Nous avons nommé cette opération “Ambari Takeover”. C’est un processus à risque et nous…

By LEO Schoukroun

20 nov. 2018

Déploiement d'un cluster Flink sécurisé sur Kubernetes

Déploiement d'un cluster Flink sécurisé sur Kubernetes

Catégories : Big Data | Tags : Flink, HDFS, Kafka, Elasticsearch, Chiffrement, Kerberos, SSL/TLS

Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…

By WORMS David

8 oct. 2018

Migration de cluster et de traitements entre Hadoop 2 et 3

Migration de cluster et de traitements entre Hadoop 2 et 3

Catégories : Big Data, Infrastructure | Tags : HBase, HDFS, Oozie, Shiro, Spark, YARN, Docker, Erasure Coding, Exploitation, Rolling Upgrade, SLA, Hadoop

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…

By BAKALIAN Lucas

25 juil. 2018

Remède à l'aveuglement de Kafka

Remède à l'aveuglement de Kafka

Catégories : Big Data | Tags : Ambari, Kafka, Ranger, Hortonworks, HDP, HDF, JMX, UI

Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…

By BAKALIAN Lucas

20 juin 2018

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Lac de données, Format de fichier, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Registre (API, conteneurs, schema, ...), Schéma

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

By WORMS David

18 juin 2018

Apache Hadoop YARN 3.0 - État de l'art

Apache Hadoop YARN 3.0 - État de l'art

Catégories : Big Data, DataWorks Summit 2018 | Tags : HDFS, MapReduce, YARN, Cloudera, Docker, GPU, Hortonworks, Versions et évolutions, Hadoop

Cet article couvre la présentation ”Apache Hadoop YARN : state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…

By BAKALIAN Lucas

29 mai 2018

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : AWS, Cloudbreak, GCP, HDP, Azure, OpenStack, Exploitation, Hadoop

Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…

By RUMMENS Joris

28 mai 2018

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Catégories : Big Data, DataWorks Summit 2018 | Tags : ACID, HBase, Omid, Phoenix, Transaction, SQL

Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…

By HERMAND Xavier

24 mai 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, CDH, HDP, REST, Hadoop

Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…

By LEO Schoukroun

23 mai 2018

Questions essentielles sur les base de données Time Series

Questions essentielles sur les base de données Time Series

Catégories : Big Data | Tags : Druid, HBase, Hive, ORC, Elasticsearch, Graphana, IOT

Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…

By WORMS David

19 mars 2018

Ambari - Comment utiliser les blueprints

Ambari - Comment utiliser les blueprints

Catégories : Big Data, DevOps & SRE | Tags : Ambari, Ranger, Automation, CDH, DevOps, HDP, Exploitation, REST

En tant qu’ingénieurs d’infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d’utiliser une distribution telle que Hortonworks HDP ou…

By RUMMENS Joris

17 janv. 2018

Cloudera Sessions Paris 2017

Cloudera Sessions Paris 2017

Catégories : Big Data, Évènements | Tags : Altus, EC2, Cloudera, CDH, CDSW, SDX, Azure, PaaS

Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…

By BEREZOWSKI César

16 oct. 2017

Changer la couleur de la topbar d'Ambari

Changer la couleur de la topbar d'Ambari

Catégories : Big Data, Hack | Tags : Ambari, Front-end

J’étais récemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, …) sur HDP avec chacun son instance Ambari. L’une des questions soulevée par le client est la suivante…

By BEREZOWSKI César

9 juil. 2017

MiNiFi: Scalabilité de la donnée & de l'intérêt de commencer petit

MiNiFi: Scalabilité de la donnée & de l'intérêt de commencer petit

Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, Cloudera, C++, HDP, HDF, IOT

Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…

By BEREZOWSKI César

8 juil. 2017

Supervision de clusters HDP

Supervision de clusters HDP

Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Alert, Ambari, HDP, Métriques, Supervision, REST

Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…

By RUMMENS Joris

5 juil. 2017

Administration Hadoop multitenant avancée - protection de Zookeeper

Administration Hadoop multitenant avancée - protection de Zookeeper

Catégories : Big Data, Infrastructure | Tags : Zookeeper, Partitionnement, DoS, iptables, Exploitation, Passage à l'échelle

Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…

By SAUVAGE Pierre

5 juil. 2017

Hive Metastore HA avec DBTokenStore: Failed to initialize master key

Hive Metastore HA avec DBTokenStore: Failed to initialize master key

Catégories : Big Data, DevOps & SRE | Tags : Hive, Bug, Infrastructure

Cette article décrit ma petite aventure autour d’une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d’une installation sécurisée, entendre avec…

By WORMS David

21 juil. 2016

Maitrisez vos workflows avec Apache Airflow

Maitrisez vos workflows avec Apache Airflow

Catégories : Big Data, Tech Radar | Tags : Airflow, Cloud, DevOps, Python

Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…

By BEREZOWSKI César

17 juil. 2016

Hive, Calcite et Druid

Hive, Calcite et Druid

Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop

BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…

By WORMS David

14 juil. 2016

L'offre Red Hat Storage et son intégration avec Hadoop

L'offre Red Hat Storage et son intégration avec Hadoop

Catégories : Big Data | Tags : HDFS, GlusterFS, Red Hat, Storage, Hadoop

J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins…

By WORMS David

3 juil. 2015

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué

Catégories : Big Data, Formation | Tags : HBase, Big Data, Hue, Déploiement, Infrastructure, Hadoop

Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré…

By WORMS David

1 déc. 2010

Stockage et traitement massif avec Hadoop

Stockage et traitement massif avec Hadoop

Catégories : Big Data | Tags : HDFS, Nutch, Cloudera, Google, Hadoop

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés…

By WORMS David

26 nov. 2010

Stockage et traitement massif avec Hadoop

Stockage et traitement massif avec Hadoop

Catégories : Big Data, Node.js | Tags : HBase, Big Data, Node.js, REST

HBase est la base de données de type “column familly” de l’écosystème Hadoop construite sur le modèle de Google BigTable. HBase peut accueillir de très larges volumes de données (de l’ordre du tera ou…

By WORMS David

1 nov. 2010

Présentation de MapReduce

Présentation de MapReduce

Catégories : Big Data | Tags : MapReduce, Big Data, Java, JavaScript

Les systèmes d’information ont de plus en plus de données à stocker et à traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien d’autre stockent des quantités d’information…

By WORMS David

26 juin 2010

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Sciencem le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.