Spark MLlib

Apache Spark MLlib est une bibliothèque d'apprentissage automatique qui s'exécute sur Spark core. Il prend en charge l'informatique distribuée et est scalable verticalement et horizontalement. Il propose des API pour Java, Scala, Python, R et SQL.

Il fournit des outils tels que :

Algorithmes ML: algorithmes d'apprentissage courants tels que classification, régression, clustering et filtrage collaboratif
Featurization: extraction et sélection de variables, transformation, réduction de dimensionnalité
Pipelines: outils de construction, d'évaluation et de tuning de pipelines ML
Persistance: sauvegarde et chargement d'algorithmes, de modèles et de pipelines
Utilitaires: algèbre linéaire, statistiques, manipulations des données, etc.

En savoir plus: Documentation MLlib
Tags associés: Machine Learning

Articles associés

Quelles nouveautés pour Apache Spark 2.3 ?

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming

Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…

Par BEREZOWSKI César

23 mai 2018

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Catégories : Data Science | Tags : GPU, Hadoop, MXNet, Spark, Spark MLlib, YARN, Deep Learning, PyTorch, TensorFlow, XGBoost

Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…

Par BIANCHERIN Louis

24 juil. 2018

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Catégories : Data Engineering, Data Science, Formation | Tags : AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

Par KAFERLE DEVISSCHERE Petra

23 mars 2020