Data Science
La Data Science, et plus généralement l'Intelligence Artificielle (IA), se distingue de la programmation et de l'analyse traditionnelle par sa capacité à extraire des connaissances à partir de données et modifier son comportement (c’est-à-dire apprendre) sans programmation spécifique. Alors que les logiciels traditionnels prédéfinissent la logique qui régit leurs processus, les algorithmes de Data Science construisent et découvrent des modèles et sont en capacité de les améliorer continuellement.
La Data Science regroupe un ensemble de compétence incluant le Machine Learning, le traitement automatique du langage naturel (NLP pour Natural Language Processing), ou encore la reconnaissance de la parole, des images et des visages (entre autres applications). Dans certaines applications, les algorithmes vont jusqu'à simuler l’intelligence humaine.
Articles associés à la Data Science
Catégories : Big Data, Data Engineering, Data Science, Formation | Tags : Beam, CI/CD, Data Engineering, Deep Learning, Pipeline, Data Science, Déploiement, Machine Learning, MLOps, Open source, Python, TensorFlow
La mise en production des modèles de Machine Learning (ML) et de Deep Learning (DL) est une tâche difficile. Il est reconnu qu’elle est plus sujette à l’échec et plus longue que la modélisation…
3 mars 2021
Développement accéléré de modèles avec H2O AutoML et Flow
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…
10 déc. 2020
Versionnage des données et ML reproductible avec DVC et MLflow
Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Git, Databricks, Delta Lake, Machine Learning, MLflow, Storage
Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…
30 sept. 2020
Suivi d'expériences avec MLflow sur Databricks Community Edition
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Deep Learning, Databricks, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn
Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…
10 sept. 2020
Gestion des versions de vos jeux de données avec Data Version Control (DVC) et Git
Catégories : Data Science, DevOps & SRE | Tags : DevOps, Git, Infrastructure, Exploitation, SCM
L’utilisation d’un système de contrôle de version tel que Git pour le code source est une bonne pratique et une norme de l’industrie. Étant donné que les projets se concentrent de plus en plus sur les…
By JOUET Grégor
3 sept. 2020
Importer ses données dans Databricks : tables externes et Delta Lake
Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…
21 mai 2020
MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Catégories : Data Engineering, Data Science, Formation | Tags : Deep Learning, AWS, Databricks, Déploiement, Machine Learning, Azure, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…
23 mars 2020
Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask
Catégories : Data Science, Tech Radar | Tags : Deep Learning, Enseignement et tutorial, Machine Learning, Machine Learning, Python
Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…
2 mars 2020
Stage Data Science & Data Engineer - ML en production et ingestion streaming
Catégories : Data Engineering, Data Science | Tags : Flink, Kafka, Spark, DevOps, Hadoop, HBase, Kubernetes, Python
Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…
By WORMS David
26 nov. 2019
Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod
Catégories : Data Science | Tags : Deep Learning, GPU, Horovod, Keras, TensorFlow
L’entraînement des modèles Deep Learning peut être grandement accéléré en utilisant un cluster de GPUs. Lorsqu’il s’agit de grandes quantités de données, effectuer des calculs distribués devient…
By JOUET Grégor
15 nov. 2019
Innovation, culture projet vs culture produit en Data Science
Catégories : Data Science, Gouvernance des données | Tags : DevOps, Agile, Scrum
La Data Science porte en elle le métier de demain. Elle est étroitement liée à la compréhension du métier, des comportements et de l’intelligence qu’on tirera des données existantes. Les enjeux sont à…
By WORMS David
8 oct. 2019
Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…
30 sept. 2019
Installation de TensorFlow avec Docker
Catégories : Orchestration de conteneurs, Data Science, Formation | Tags : CPU, Deep Learning, Docker, Jupyter, Linux, IA, TensorFlow
TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph : Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau…
5 août 2019
Spark Streaming partie 4 : clustering avec Spark MLlib
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Streaming, Clustering, Machine Learning, Scala
Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…
11 juil. 2019
Introduction à Cloudera Data Science Workbench
Catégories : Data Science | Tags : Cloudera, Docker, Git, Kubernetes, Machine Learning, Azure, Notebook
Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet…
28 févr. 2019
Apprentissage par renforcement appliqué au jeu de Poker
Catégories : Data Science | Tags : Algorithme, Deep Learning, Jeu, Q-learning, Machine Learning, Réseau de neurones, Python
Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…
9 janv. 2019
CodaLab - Concours de Data Science
Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, MySQL, Machine Learning, Node.js, Python
CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…
17 déc. 2018
Nvidia et l'IA embarqué
Catégories : Data Science | Tags : Caffe, Deep Learning, Edge computing, GPU, NVIDIA, IA, Keras, PyTorch, TensorFlow
Depuis un peu plus de quatre ans, beaucoup de sociétés investissent dans l’intelligence artificielle et plus particulièrement dans le Deep Learning et le Edge Computing. Alors que la théorie avance à…
By HATI Yliess
10 oct. 2018
Lando : résumé de conversation en Deep Learning
Catégories : Data Science, Formation | Tags : Deep Learning, Micro Services, Open API, Kubernetes, Réseau de neurones, Node.js
Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…
By HATI Yliess
18 sept. 2018
Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop
Catégories : Data Science | Tags : Spark, YARN, Deep Learning, GPU, Hadoop, Spark MLlib, PyTorch, TensorFlow, XGBoost, MXNet
Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…
24 juil. 2018
YARN et le calcul distribué sur GPU pour le machine learning
Catégories : Data Science, DataWorks Summit 2018 | Tags : YARN, GPU, Machine Learning, Réseau de neurones, Storage
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
By JOUET Grégor
30 mai 2018
TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, Spark, YARN, C++, CPU, GPU, JavaScript, Performance, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
By HATI Yliess
29 mai 2018
Apache Apex avec Apache SAMOA
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Samoa, Storm, Tools, Hadoop, Machine Learning
Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training : Construction du modèle Holdout : tuning du paramétrage Test : précision…
17 juil. 2016
Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Kafka, Storm, Tools, Hadoop, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
17 juil. 2016
Installation de PostgreSQL et Madlib sur OSX
Catégories : Data Science | Tags : Base de données, Greenplum, Statistiques, PostgreSQL, SQL
Nous couvrons l’installation et l’utilisation de PostgreSQL et de MADlib sur OSX et Ubuntu. Les instructions pour les autres environnements doivent être similaires. PostgreSQL est une base de données…
By WORMS David
7 juil. 2012