Blog, publications récentes

Lando: résumé de conversation en Deep Learning

Lando: Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep Learning pour synthétiser le contenu.  Lando permet à ses utilisateurs de comprendre rapidement le contexte de la conversation. En tant que stagiaires [...]

Par |2018-09-18T15:42:32+00:00September 18th, 2018|Conteneur, Data Science|0 commentaire

Migration de cluster et de traitements entre Hadoop 2 et 3

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et apporter de nouvelles opportunités, comment vos traitements actuels sont-ils impactés, quelle stratégie de migration est la plus appropriée pour votre entreprise ? […]

Par |2018-08-17T09:36:55+00:00July 25th, 2018|Big Data|0 commentaire

Deep learning sur YARN: lancer Tensorflow et ses amis sur des clusters Hadoop

Avec l'arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitement de Deep Learning sur des GPUs dans des espaces dédiés du cluster. Cet article est basé sur une présentation de Wandga Tan, membre du PMC Apache Hadoop, lors du DataWorks Summit 2018. [...]

Remède à l’aveuglement de Kafka

Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt disponible. L’interface fut présenté par George Vettcaden, VP Management product chez Hortonworks, en avant première lors de la conférence du DataWorks Summit de Juin 2018 à [...]

Par |2018-06-21T13:08:45+00:00June 20th, 2018|Big Data, DataWorks Summit 2018|0 commentaire

Environnement de développement CoreOS avec Vagrant et VirtualBox

Suivre les instructions de CoreOS sur la façon de configurer un environnement de développement dans VirtualBox n’a pas bien fonctionné pour moi. Voici les étapes que j’ai suivies pour que Container Linux fonctionne avec Vagrant. […]

Par |2018-06-21T11:03:50+00:00June 20th, 2018|Conteneur, DevOps|0 commentaire

Ingestion de Data Lake, quelques bonnes pratiques

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continue que nous recommendons et mettons en place lorsque nous accompagnons nos clients. […]

Par |2018-09-12T13:04:46+00:00June 18th, 2018|Data Engineering, DevOps|0 commentaire

DataWorks Summit 2018 – Quelques jours à Berlin

L’équipe Adaltas s’est rendu au complet à la conférence DataWorks Summit 2018 qui a eu lieu à Berlin les 18 et 19 avril. A cette occasion, nous avons compilé une série d’articles sur les présentations qui nous ont les plus marquées. […]

Par |2018-07-07T10:47:21+00:00June 5th, 2018|DataWorks Summit 2018|0 commentaire

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive

Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues matérialisées. Cet article va décrire le principe général de cette fonctionnalité, donner quelques exemples et les améliorations prévues dans la roadmap du projet. […]