Machine Learning
L'apprentissage automatique est un sous-domaine de l'intelligence artificielle. L'objectif est de construire une description ou un modèle mathématique des données dont nous disposons afin de pouvoir acquérir une nouvelle compréhension du système ou de prédire son comportement futur. Les approches peuvent être divisées en trois catégories :
-
Apprentissage supervisé - les observations sont annotées, ce qui signifie que chaque observation appartient à une classe connue. L'objectif est de prédire cette classe pour nouvelles observations, comme elle est inconnue. Quelques algorithmes : régression linéaire et logistique, arbres de décision, machines à vecteurs de support, réseaux de neurones artificiels.
-
Apprentissage non supervisé - les données ne sont pas annotées. L'objectif est de découvrir de nouvelles connaissances avec un minimum de supervision humaine. Des exemples d'algorithmes sont le clustering, l'analyse des composants principaux et les règles d'association.
-
Apprentissage par renforcement - n'a pas besoin de données annotées. Un agent existe dans un environnement dans lequel il prend des actions pour atteindre un objectif. Pour chaque action, elle peut être récompensée positivement ou négativement. Après avoir répété plusieurs fois la même séquence d'actions, il cherche à maximiser la récompense et minimiser l’effort. Ainsi il apprend la manière optimale d'accomplir une tâche. Deux catégories d'algorithmes sont les algorithmes sans modèle et les algorithmes basés sur le modèle.
Articles associés
Développement accéléré de modèles avec H2O AutoML et Flow
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…
10 déc. 2020
Versionnage des données et ML reproductible avec DVC et MLflow
Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Git, Databricks, Delta Lake, Machine Learning, MLflow, Storage
Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…
30 sept. 2020
Suivi d'expériences avec MLflow sur Databricks Community Edition
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Deep Learning, Databricks, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn
Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…
10 sept. 2020
Importer ses données dans Databricks : tables externes et Delta Lake
Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…
21 mai 2020
MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Catégories : Data Engineering, Data Science, Formation | Tags : Deep Learning, AWS, Databricks, Déploiement, Machine Learning, Azure, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…
23 mars 2020
Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask
Catégories : Data Science, Tech Radar | Tags : Deep Learning, Enseignement et tutorial, Machine Learning, Machine Learning, Python
Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…
2 mars 2020
Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod
Catégories : Data Science | Tags : Deep Learning, GPU, Horovod, Keras, TensorFlow
L’entraînement des modèles Deep Learning peut être grandement accéléré en utilisant un cluster de GPUs. Lorsqu’il s’agit de grandes quantités de données, effectuer des calculs distribués devient…
By JOUET Grégor
15 nov. 2019
Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…
30 sept. 2019
Spark Streaming partie 4 : clustering avec Spark MLlib
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Streaming, Clustering, Machine Learning, Scala
Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…
11 juil. 2019
Introduction à Cloudera Data Science Workbench
Catégories : Data Science | Tags : Cloudera, Docker, Git, Kubernetes, Machine Learning, Azure, Notebook
Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet…
28 févr. 2019
Apprentissage par renforcement appliqué au jeu de Poker
Catégories : Data Science | Tags : Algorithme, Deep Learning, Jeu, Q-learning, Machine Learning, Réseau de neurones, Python
Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…
9 janv. 2019
CodaLab - Concours de Data Science
Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, MySQL, Machine Learning, Node.js, Python
CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…
17 déc. 2018
Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Flink, Pipeline, Streaming, Kubernetes, Machine Learning, SQL
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
5 nov. 2018
YARN et le calcul distribué sur GPU pour le machine learning
Catégories : Data Science, DataWorks Summit 2018 | Tags : YARN, GPU, Machine Learning, Réseau de neurones, Storage
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
By JOUET Grégor
30 mai 2018
TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, Spark, YARN, C++, CPU, GPU, JavaScript, Performance, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
By HATI Yliess
29 mai 2018
Apache Apex avec Apache SAMOA
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Samoa, Storm, Tools, Hadoop, Machine Learning
Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training : Construction du modèle Holdout : tuning du paramétrage Test : précision…
17 juil. 2016
Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Kafka, Storm, Tools, Hadoop, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
17 juil. 2016