Big Data

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark MLlib est une bibliothèque Spark d'Apache offrant des implémentations performantes de divers algorithmes d'apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut servir de plateforme pour développer des systèmes d’apprentissage automatique. Un modèle de Machine Learning (ML) développé avec Spark MLlib peut être associé à un pipeline de streaming crée avec Spark [...]

Spark Streaming Partie 2 : traitement d’une pipeline Spark Structured Streaming dans Hadoop

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l'orchestration de tâches. Ainsi, Spark Structured Streaming s'intègre bien dans une infrastructure Big Data. Une chaîne de traitement des données streaming sera présentée, cette fois dans un environnement distribué. Ceci est [...]

Par |2019-07-11T22:10:21+00:00May 28th, 2019|Big Data, Data Engineering|0 commentaire

Spark Streaming partie 1: construction de data pipelines avec Spark Structured Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured Streaming partage la même API que le moteur Spark SQL. L’utilisateur ne devrait donc pas rencontrer de difficulté quant à son utilisation. L’une [...]

Par |2019-07-11T22:11:03+00:00April 18th, 2019|Big Data, Data Engineering|1 Comment

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks, les studios de BI, les outils de rapport basés sur les indicateurs de performance clés (KPIs) parlent souvent les protocoles JDBC/ODBC et sont de [...]

Par |2019-03-25T14:54:08+00:00March 25th, 2019|Big Data, Data Engineering|0 commentaire

Introduction à Cloudera Data Science Workbench

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet ainsi de se concentrer sur leur tâche principale, qui consiste à tirer des informations des données, sans penser à la complexité des outils opérants [...]

Une semaine à discuter techno isolés dans un riad Marocain

Adaltas organise sa première conférence entre les 22 et 26 Octobre. Au programme de ces 5 jours de conférence: discuter de technologie dans l'un des plus beau riad de Marrakech. Mélanger l'utile à l'agréable, apprendre et partager les pieds en évantail dans la piscine. La règle est simple, chaque participant s'engage à intervenir au minimum [...]

Par |2019-07-17T13:57:56+00:00October 14th, 2018|Adaltas Summit 2018|0 commentaire

Installation d’Hadoop sous OSX en mode pseudo-distribué

Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré manuellement. Seuls quelques paquets sont installés par Macport mais ceux-ci sont aisément trouvables sur des outils équivalents comme Apt et Yum. Etant donné que les logiciels téléchargés [...]

Par |2019-06-23T21:39:29+00:00December 1st, 2010|Hack|0 commentaire

Node HBase, client NodeJs pour Apache HBase

HBase est la base de données de type “column familly” de l’écosystème Hadoop construite sur le modèle de Google BigTable. HBase peut accueillir de très larges volumes de données (de l’ordre du tera ou du peta) tout en maintenant une haute disponibilité et des temps de réponses rapides. Adaltas a mis en ligne un client [...]

Par |2019-06-23T21:36:54+00:00November 1st, 2010|Big Data|0 commentaire

Présentation de MapReduce

Les systèmes d’information ont de plus en plus de données à stocker et à traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien d’autre stockent des quantités d’information astronomiques en provenance de leurs clients et doivent être en mesure de les servir par les meilleurs recommandations tout en assurant la pérennité de leurs systèmes. [...]

Par |2019-06-21T23:22:39+00:00June 26th, 2010|Big Data|0 commentaire