Big Data

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

L'indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application streaming utilise des données du monde réel, l’incertitude est donc intrinsèque aux données arrivant dans l’application. Les tests sont essentiels pour détecter les défauts logiciels et les logiques défectueuses [...]

Par |2019-06-19T21:48:27+00:00June 19th, 2019|Big Data, Data Engineering|0 commentaire

Intégration de Druid et Hive

Nous allons dans cet article traiter de l'intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l'article Ultra-fast OLAP Analytics with Apache Hive and Druid Présentation des Outils Hive et Hive LLAP Hive est un environnement permettant l'exécution de requêtes SQL sur des données stockées dans HDFS. Hive peut configurer différents exécuteurs [...]

Par |2019-06-18T09:09:24+00:00June 13th, 2019|Big Data, Blog, Tech Radar|0 commentaire

Spark Streaming Partie 2 : traitement d’une pipeline Spark Structured Streaming dans Hadoop

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l'orchestration de tâches. Ainsi, Spark Structured Streaming s'intègre bien dans une infrastructure Big Data. Une chaîne de traitement des données streaming sera présentée, cette fois dans un environnement distribué. Ceci est [...]

Par |2019-05-28T21:51:36+00:00May 28th, 2019|Big Data, Data Engineering|0 commentaire

Spark Streaming partie 1: construction de data pipelines avec Spark Structured Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured Streaming partage la même API que le moteur Spark SQL. L’utilisateur ne devrait donc pas rencontrer de difficulté quant à son utilisation. L’une [...]

Par |2019-04-18T16:07:53+00:00April 18th, 2019|Big Data, Data Engineering|1 Comment

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks, les studios de BI, les outils de rapport basés sur les indicateurs de performance clés (KPIs) parlent souvent les protocoles JDBC/ODBC et sont de [...]

Par |2019-03-25T14:54:08+00:00March 25th, 2019|Big Data, Data Engineering|0 commentaire

Multihoming sur Hadoop

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de multihoming et à ses applications sur des cas d’usages concrets. […]

Introduction à Cloudera Data Science Workbench

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet ainsi de se concentrer sur leur tâche principale, qui consiste à tirer des informations des données, sans penser à la complexité des outils opérants [...]

CodaLab – Concours de Data Science

CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre du code ou des résultats et se comparer aux autres. Voyons ensemble comment fonctionne et comment installer CodaLab On-Premise. […]

Par |2018-12-17T16:54:35+00:00December 17th, 2018|Big Data, Data Science|0 commentaire

Les principaux avantages de GraphQL comme alternative au REST

GraphQL est basé sur une idée simple, déplacer l'assemblage d'une requête du serveur vers le client. Ce dernier voit l'ensemble du schéma fortement typé au lieu d'une multitude de services REST et construit la requête souhaitée en fonction de ses besoins. Ma première application web en REST, SPAs pour Single Page Application comme cela fût [...]

Par |2018-11-27T09:59:22+00:00November 27th, 2018|Big Data, Data Science|0 commentaire