Apache Hadoop

Hadoop est une plate-forme de stockage et de traitements massivement évolutive adaptée aux données volumineuses du Big Data. Son architecture repose sur un système de fichiers distribué (HDFS) et sur un gestionnaire de resources (YARN).

Hadoop offre un niveau élevé de durabilité et de disponibilité tout en permettant l'exécution de traitements en parallèle. La combinaison de la disponibilité, de la durabilité et de l'évolutivité fait d'Hadoop un choix privilégié pour les cas d'usage associés au Big Data.

Articles associés

Optimisation d'applicationS Spark dans Hadoop YARN

Catégories : Data Engineering, Formation | Tags : Spark, Performance, Hadoop, Python

Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…

DE BAECQUE Ferdinand

By DE BAECQUE Ferdinand

30 mars 2020

Migration Big Data et Data Lake vers le Cloud

Catégories : Big Data, Cloud computing | Tags : Cloud, DevOps, AWS, CDP, Databricks, GCP, Azure

Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…

RUMMENS Joris

By RUMMENS Joris

9 déc. 2019

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Catégories : Data Engineering, Data Science | Tags : Flink, Kafka, Spark, DevOps, Hadoop, HBase, Kubernetes, Python

Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…

WORMS David

By WORMS David

26 nov. 2019

Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes

Catégories : Big Data, Orchestration de conteneurs | Tags : Kafka, Spark, DevOps, LXD, NoSQL, Hadoop, Ceph, Kubernetes

Contexte L’acquisition d’un cluster à forte capacité répond à la volonté d’Adaltas de construire une offre de type PAAS pour disposer et mettre à disposition des plateformes de Big Data et d…

WORMS David

By WORMS David

26 nov. 2019

Mise en production d'un modèle de Machine Learning

Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : Cloud, DevOps, On-premise, Exploitation, Schéma, IA, Machine Learning, MLOps

“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

30 sept. 2019

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Versions et évolutions, Hadoop

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

LEONARD Gauthier

By LEONARD Gauthier

25 juil. 2019

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Catégories : Data Engineering, Formation | Tags : Spark, Apache Spark Streaming, Streaming, Python

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

28 mai 2019

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Catégories : Data Engineering | Tags : Hive, Spark, Thrift, JDBC, Hadoop, SQL

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

25 mars 2019

Multihoming avec Hadoop

Catégories : Infrastructure | Tags : HDFS, Kerberos, Réseau, Hadoop

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de…

RUMMENS Joris

By RUMMENS Joris

5 mars 2019

Apache Knox, c'est facile !

Catégories : Big Data, Cybersécurité, Adaltas Summit 2018 | Tags : Ranger, Kerberos, LDAP, Active Directory, REST, Knox

Apache Knox est le point d’entrée sécurisé d’un cluster Hadoop, mais peut-il être également le point d’entrée de mes applications REST ? Vue d’ensemble d’Apache Knox Apache Knox est une passerelle…

HATOUM Michael

By HATOUM Michael

4 févr. 2019

Surveillance d'un cluster Hadoop de production avec Kubernetes

Catégories : DevOps & SRE | Tags : Thrift, Docker, Elasticsearch, Graphana, Node.js, Prometheus, Shinken, Hadoop, Knox, Kubernetes, Python

La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui…

CORDONNIER Paul-Adrien

By CORDONNIER Paul-Adrien

21 déc. 2018

Une semaine à discuter techno isolés dans un riad Marocain

Catégories : Adaltas Summit 2018, Formation | Tags : Flink, CDSW, Deep Learning, Gatsby, Node.js, React.js, Hadoop, Knox, Kubernetes

Adaltas organise sa première conférence entre les 22 et 26 Octobre. Au programme de ces 5 jours de conférence : discuter de technologie dans l’un des plus beau riad de Marrakech. Mélanger l’utile à l…

WORMS David

By WORMS David

14 oct. 2018

Migration de cluster et de traitements entre Hadoop 2 et 3

Catégories : Big Data, Infrastructure | Tags : HDFS, Shiro, Spark, YARN, Docker, Erasure Coding, Rolling Upgrade

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…

BAKALIAN Lucas

By BAKALIAN Lucas

25 juil. 2018

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Catégories : Data Science | Tags : Spark, YARN, Deep Learning, GPU, Hadoop, Spark MLlib, PyTorch, TensorFlow, XGBoost, MXNet

Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…

BIANCHERIN Louis

By BIANCHERIN Louis

24 juil. 2018

Apache Hadoop YARN 3.0 - État de l'art

Catégories : Big Data, DataWorks Summit 2018 | Tags : HDFS, MapReduce, YARN, Cloudera, Docker, GPU, Hortonworks, Versions et évolutions, Hadoop

Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…

BAKALIAN Lucas

By BAKALIAN Lucas

29 mai 2018

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : Cloudbreak, HDP, OpenStack, Exploitation, Hadoop, AWS, GCP, Azure

Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…

RUMMENS Joris

By RUMMENS Joris

28 mai 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, HDP, REST, Hadoop, CDH

Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…

SCHOUKROUN Leo

By SCHOUKROUN Leo

23 mai 2018

MariaDB integration with Hadoop

Catégories : Infrastructure | Tags : Hive, Base de données, HA, MariaDB, Hadoop

Lors d’ateliers menés avec l’un de nos clients, Adaltas a levé un risque potentiel sur la stratégie utilisée pour la mise en haute disponibilité (HA) de MariaDB. Le client ayant sélectionné la…

WORMS David

By WORMS David

31 juil. 2017

Apache Apex avec Apache SAMOA

Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Samoa, Storm, Tools, Hadoop, Machine Learning

Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training : Construction du modèle Holdout : tuning du paramétrage Test : précision…

SAUVAGE Pierre

By SAUVAGE Pierre

17 juil. 2016

Apache Apex : l'analytique Big Data nouvelle génération

Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Kafka, Storm, Tools, Hadoop, Data Science, Machine Learning

Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…

BEREZOWSKI César

By BEREZOWSKI César

17 juil. 2016

Hive, Calcite et Druid

Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop

BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…

WORMS David

By WORMS David

14 juil. 2016

L'offre Red Hat Storage et son intégration avec Hadoop

Catégories : Big Data | Tags : HDFS, GlusterFS, Red Hat, Hadoop, Storage

J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins…

WORMS David

By WORMS David

3 juil. 2015

Chef : configuration et deploiement automatisé de Clusters

Catégories : DevOps & SRE, Infrastructure | Tags : Automation, Chef, Enseignement et tutorial, Puppet, Hadoop, Déploiement

L’installation d’un cluster de plusieurs machines est consommateur de temps. La même procédure de mise en place des logiciels et de leurs paramétrages doit être répétée à l’identique. Au cours du…

WORMS David

By WORMS David

10 déc. 2010

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué

Catégories : Big Data, Formation | Tags : Big Data, Hue, Infrastructure, Hadoop, HBase, Déploiement

Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré…

WORMS David

By WORMS David

1 déc. 2010

Stockage et traitement massif avec Hadoop

Catégories : Big Data | Tags : HDFS, Hadoop, Storage

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés…

WORMS David

By WORMS David

26 nov. 2010

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.