Blog, publications récentes

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks, les studios de BI, les outils de rapport basés sur les indicateurs de performance clés (KPIs) parlent souvent les protocoles JDBC/ODBC et sont de [...]

Par |2019-03-25T14:54:08+00:00March 25th, 2019|Big Data, Data Engineering|0 commentaire

Multihoming sur Hadoop

Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de multihoming et à ses applications sur des cas d’usages concrets. […]

Introduction à Cloudera Data Science Workbench

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet ainsi de se concentrer sur leur tâche principale, qui consiste à tirer des informations des données, sans penser à la complexité des outils opérants [...]

Installation de Kubernetes sur CentOS 7

Cet article présente la démarche à suivre afin d’installer un cluster Kubernetes. Chaque étape sera détaillée afin que ayez une compréhension approfondie de chacune d’elle. […]

Apprentissage par renforcement appliqué au jeu de Poker

Dans cet article, nous présenterons le "Deep Reinforcement Learning", et plus particulièrement l'algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie, nous implémenterons cet algorithme pour essayer de résoudre certaines situations dans une partie de Poker. Apprentissage par renforcement Le Machine Learning ainsi que le Deep Learning [...]

Par |2019-03-07T09:31:11+00:00January 9th, 2019|Data Science, Deep Learning|0 commentaire

LXD: la pièce manquante

LXD signifie Linux Container Daemon. Il s'agit d'une technologie de conteneur. Mais LXD est très différent. Il se distingue du peloton. Ce n'est pas nécessairement mieux ni beaucoup plus rapide ni plus sécurisé! Mais cela résout un autre problème que les autres conteneurs ne peuvent pas solutionner. La transition des machines virtuelles traditionnelles vers les [...]

Par |2018-12-28T14:26:55+00:00December 28th, 2018|Conteneur, DevOps|1 Comment

Surveillance d’un cluster Hadoop de production avec Kubernetes

La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui concerne la surveillance la plus simple, elle n’est pas en mesure de répondre aux besoins de lancement de vérifications plus poussés. Dans cet [...]

Par |2018-12-21T16:31:26+00:00December 21st, 2018|Conteneur, Data Engineering, DevOps|0 commentaire

CodaLab – Concours de Data Science

CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre du code ou des résultats et se comparer aux autres. Voyons ensemble comment fonctionne et comment installer CodaLab On-Premise. […]

Par |2018-12-17T16:54:35+00:00December 17th, 2018|Big Data, Data Science|0 commentaire