Data Science

Articles related to data science

Deployez vos aplications IA conteneurisées avec nvidia-docker

Categories: Orchestration de conteneurs, Data Science | Tags: containerd, DevOps, Enseignement et tutorial, NVIDIA, Docker, Keras, TensorFlow

De plus en plus de produits et services prennent avantage des capacités de modélisation et prédiction des IA. Cet article présente l’outil nvidia-docker permettant d’intégrer des briques logiciels IA…

By SOARES Robert Walid

Mar 24, 2022

Stage de fin d'étude printemps 2022 - construction d'un Data Lab

Categories: Data Science, Formation | Tags: Spark, Argo CD, Elasticsearch, Internship, Keycloak, Kubernetes, MongoDB, OpenID Connect, PostgreSQL

Descriptif du stage Au cours des dernières années, nous avons développé la capacité d’utiliser les ordinateurs pour traiter une grande quantité de données. L’écosystème a évolué vers une offre étendue…

By WORMS David

Nov 24, 2021

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles

Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost

H20 est livré avec de nombreuses fonctionnalités. La deuxième partie de la série H2O en pratique propose un protocole pour combiner la modélisation AutoML avec des approches de modélisation et d…

By KAFERLE DEVISSCHERE Petra

Nov 12, 2021

H2O en pratique: retour d'expérience d'un Data Scientist

Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

Les plates-formes d’apprentissage automatique (AutoML) gagnent en popularité et deviennent un outil puissant à disposition des data scientists. Il y a quelques mois, j’ai présenté H2O, une plate-forme…

By KAFERLE DEVISSCHERE Petra

Sep 29, 2021

Apache Liminal, quand le MLOps rencontre le GitOps

Categories: Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags: Data Engineering, CI/CD, Data Science, Deep Learning, Déploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow

Apache Liminal propose une solution clés en main permettant de déployer un pipeline de Machine Learning. C’est un projet open-source, qui centralise l’ensemble des étapes nécessaires à l’entrainement…

By COINTEPAS Aargan

Mar 31, 2021

Espace de stockage et temps de génération des formats de fichiers

Categories: Data Engineering, Data Science | Tags: Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)

Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…

By NGOM Barthelemy

Mar 22, 2021

TensorFlow Extended (TFX) : les composants et leurs fonctionnalités

Categories: Big Data, Data Engineering, Data Science, Formation | Tags: Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, Déploiement, Machine Learning, MLOps, Open source, Python, TensorFlow

La mise en production des modèles de Machine Learning (ML) et de Deep Learning (DL) est une tâche difficile. Il est reconnu qu’elle est plus sujette à l’échec et plus longue que la modélisation…

By KAFERLE DEVISSCHERE Petra

Mar 5, 2021

Développement accéléré de modèles avec H2O AutoML et Flow

Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…

By KAFERLE DEVISSCHERE Petra

Dec 10, 2020

Versionnage des données et ML reproductible avec DVC et MLflow

Categories: Data Science, DevOps & SRE, Évènements | Tags: Data Engineering, Databricks, Delta Lake, Git, Machine Learning, MLflow, Storage

Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…

By KAFERLE DEVISSCHERE Petra

Sep 30, 2020

Suivi d'expériences avec MLflow sur Databricks Community Edition

Categories: Data Engineering, Data Science, Formation | Tags: Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn

Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…

By KAFERLE DEVISSCHERE Petra

Sep 10, 2020

Gestion des versions de vos jeux de données avec Data Version Control (DVC) et Git

Categories: Data Science, DevOps & SRE | Tags: DevOps, Infrastructure, Exploitation, Git, GitOps, SCM

L’utilisation d’un système de contrôle de version tel que Git pour le code source est une bonne pratique et une norme de l’industrie. Étant donné que les projets se concentrent de plus en plus sur les…

By JOUET Grégor

Sep 3, 2020

Importer ses données dans Databricks : tables externes et Delta Lake

Categories: Data Engineering, Data Science, Formation | Tags: Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

By KAFERLE DEVISSCHERE Petra

May 21, 2020

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Categories: Data Engineering, Data Science, Formation | Tags: AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

By KAFERLE DEVISSCHERE Petra

Mar 23, 2020

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Categories: Data Science, Tech Radar | Tags: Enseignement et tutorial, Deep Learning, Machine Learning, Machine Learning, Python

Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…

By SOARES Robert Walid

Mar 2, 2020

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Categories: Data Engineering, Data Science | Tags: DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python

Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…

By WORMS David

Nov 26, 2019

Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod

Categories: Data Science | Tags: GPU, Deep Learning, Horovod, Keras, TensorFlow

L’entraînement des modèles Deep Learning peut être grandement accéléré en utilisant un cluster de GPUs. Lorsqu’il s’agit de grandes quantités de données, effectuer des calculs distribués devient…

By JOUET Grégor

Nov 15, 2019

Innovation, culture projet vs culture produit en Data Science

Categories: Data Science, Gouvernance des données | Tags: DevOps, Agile, Scrum

La Data Science porte en elle le métier de demain. Elle est étroitement liée à la compréhension du métier, des comportements et de l’intelligence qu’on tirera des données existantes. Les enjeux sont à…

By WORMS David

Oct 8, 2019

Mise en production d'un modèle de Machine Learning

Categories: Big Data, Data Engineering, Data Science, DevOps & SRE | Tags: DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma

“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…

By RYNKIEWICZ Oskar

Sep 30, 2019

Installation de TensorFlow avec Docker

Categories: Orchestration de conteneurs, Data Science, Formation | Tags: CPU, Linux, IA, Deep Learning, Docker, Jupyter, TensorFlow

TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph : Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau…

By SAUVAGE Pierre

Aug 5, 2019

Spark Streaming partie 4 : clustering avec Spark MLlib

Categories: Data Engineering, Data Science, Formation | Tags: Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming

Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…

By RYNKIEWICZ Oskar

Jun 27, 2019

Introduction à Cloudera Data Science Workbench

Categories: Data Science | Tags: Azure, Cloudera, Docker, Git, Kubernetes, Machine Learning, MLOps, Notebook

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet…

By ELALAMI Mehdi

Feb 28, 2019

Apprentissage par renforcement appliqué au jeu de Poker

Categories: Data Science | Tags: Algorithme, Jeu, Q-learning, Deep Learning, Machine Learning, Réseau de neurones, Python

Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…

By BLAZEJEWSKI Oscar

Jan 9, 2019

CodaLab - Concours de Data Science

Categories: Data Science, Adaltas Summit 2018, Formation | Tags: Base de données, Infrastructure, Machine Learning, MySQL, Node.js, Python

CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…

By SOARES Robert Walid

Dec 17, 2018

Nvidia et l'IA embarqué

Categories: Data Science | Tags: Caffe, GPU, NVIDIA, IA, Deep Learning, Edge computing, Keras, PyTorch, TensorFlow

Depuis un peu plus de quatre ans, beaucoup de sociétés investissent dans l’intelligence artificielle et plus particulièrement dans le Deep Learning et le Edge Computing. Alors que la théorie avance à…

By HATI Yliess

Oct 10, 2018

Lando : résumé de conversation en Deep Learning

Categories: Data Science, Formation | Tags: Micro Services, Open API, Deep Learning, Internship, Kubernetes, Réseau de neurones, Node.js

Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…

By HATI Yliess

Sep 18, 2018

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Categories: Data Science | Tags: GPU, Hadoop, MXNet, Spark, Spark MLlib, YARN, Deep Learning, PyTorch, TensorFlow, XGBoost

Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…

By BIANCHERIN Louis

Jul 24, 2018

YARN et le calcul distribué sur GPU pour le machine learning

Categories: Data Science, DataWorks Summit 2018 | Tags: GPU, YARN, Machine Learning, Réseau de neurones, Storage

Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…

By JOUET Grégor

May 30, 2018

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

Categories: Data Science, DataWorks Summit 2018 | Tags: Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow

L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…

By HATI Yliess

May 29, 2018

Apache Apex : l'analytique Big Data nouvelle génération

Categories: Data Science, Évènements, Tech Radar | Tags: Apex, Storm, Tools, Flink, Hadoop, Kafka, Data Science, Machine Learning

Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…

By BEREZOWSKI César

Jul 17, 2016

Apache Apex avec Apache SAMOA

Categories: Data Science, Évènements, Tech Radar | Tags: Apex, Samoa, Storm, Tools, Flink, Hadoop, Machine Learning

Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training : Construction du modèle Holdout : tuning du paramétrage Test : précision…

By SAUVAGE Pierre

Jul 17, 2016

Installation de PostgreSQL et Madlib sur OSX

Categories: Data Science | Tags: Base de données, Greenplum, Statistiques, PostgreSQL, SQL

Nous couvrons l’installation et l’utilisation de PostgreSQL et de MADlib sur OSX et Ubuntu. Les instructions pour les autres environnements doivent être similaires. PostgreSQL est une base de données…

By WORMS David

Jul 7, 2012

Data Science

Key Takeaways

Articles related to data science