Machine Learning

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark MLlib est une bibliothèque Spark d'Apache offrant des implémentations performantes de divers algorithmes d'apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut servir de plateforme pour développer des systèmes d’apprentissage automatique. Un modèle de Machine Learning (ML) développé avec Spark MLlib peut être associé à un pipeline de streaming crée avec Spark [...]

Introduction à Cloudera Data Science Workbench

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet ainsi de se concentrer sur leur tâche principale, qui consiste à tirer des informations des données, sans penser à la complexité des outils opérants [...]

YARN et la distribution de GPU pour le machine learning

Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de ressources tel que YARN peut s’avérer utile dans ce contexte et comment il peut aider des algorithmes à s’exécuter sereinement. Cet article s’inspire d’une conférence du DataWork [...]

Par |2019-02-07T18:15:41+00:00May 30th, 2018|Data Science, DataWorks Summit 2018|1 Comment

Apache Apex avec Apache SAMOA

Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training: Construction du modèle Holdout: tuning du paramétrage Test: précision Online Machine Learning Streaming Modèle évolutif Adaptation dynamique aux nouveaux patterns de la donnée Changement à travers le temps (concept drift) Mise à jour du modèle Utilisation généralisée des [...]

Par |2019-06-18T22:53:45+00:00July 17th, 2016|Data Science, Évènements|0 commentaire

Apache Apex: l’analytique Big Data nouvelle génération

Ci-dessous une compilation de mes notes prises lors de la présentation d'Apache Apex par Thomas Weise de DataTorrent, l'entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements parallélisés en mémoire, comme Flink ou Storm. Cependant, il est développé avec une intégration native d'Hadoop : Yarn est utilisé pour la gestion des ressources HDFS [...]