Big Data

Spark Streaming partie 1: construction de data pipelines avec Spark Structured Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured Streaming partage la même API que le moteur Spark SQL. L’utilisateur ne devrait donc pas rencontrer de difficulté quant à son utilisation. L’une [...]

Par |2019-04-18T16:07:53+00:00April 18th, 2019|Big Data, Data Engineering|0 commentaire

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks, les studios de BI, les outils de rapport basés sur les indicateurs de performance clés (KPIs) parlent souvent les protocoles JDBC/ODBC et sont de [...]

Par |2019-03-25T14:54:08+00:00March 25th, 2019|Big Data, Data Engineering|0 commentaire

Multihoming sur Hadoop

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de multihoming et à ses applications sur des cas d’usages concrets. […]

Introduction à Cloudera Data Science Workbench

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet ainsi de se concentrer sur leur tâche principale, qui consiste à tirer des informations des données, sans penser à la complexité des outils opérants [...]

CodaLab – Concours de Data Science

CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre du code ou des résultats et se comparer aux autres. Voyons ensemble comment fonctionne et comment installer CodaLab On-Premise. […]

Par |2018-12-17T16:54:35+00:00December 17th, 2018|Big Data, Data Science|0 commentaire

Les principaux avantages de GraphQL comme alternative au REST

GraphQL est basé sur une idée simple, déplacer l'assemblage d'une requête du serveur vers le client. Ce dernier voit l'ensemble du schéma fortement typé au lieu d'une multitude de services REST et construit la requête souhaitée en fonction de ses besoins. Ma première application web en REST, SPAs pour Single Page Application comme cela fût [...]

Par |2018-11-27T09:59:22+00:00November 27th, 2018|Big Data, Data Science|0 commentaire

Prise de contrôle d’un cluster Hadoop avec Apache Ambari

Nous avons récemment migré un large cluster Hadoop de production installé “manuellement” vers Apache Ambari. Nous avons nommé cette opération “Ambari Takeover”. C’est un processus à risque et nous allons détailler pourquoi nous avions besoin de réaliser cette opération et comment nous l’avons fait. […]

Par |2018-11-22T13:47:28+00:00November 20th, 2018|Big Data|0 commentaire

Gestion des identités utilisateurs sur clusters Big Data

La sécurisation d'un cluster Big Data implique l'intégration ou le déploiement de services spécifiques pour stocker les utilisateurs. Certains utilisateurs sont spécifiques à un cluster lorsque d'autres sont partagés entre tous les clusters. Il n'est pas toujours clair de savoir comment ces différents services s'articulent et s'ils doivent être partagés entre plusieurs clusters. Aussi, quelle [...]

Par |2018-11-08T12:33:44+00:00November 8th, 2018|Big Data, Cyber security|0 commentaire

Apache Flink: passé, présent et futur

Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la Flink Forward 2018. […]

Par |2018-11-15T11:08:44+00:00November 5th, 2018|Big Data, Data Engineering|0 commentaire