Articles publiés en 2020

Importer ses données dans Databricks : tables externes et Delta Lake

Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Machine Learning, Azure, Python, Delta Lake

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

Premier pas avec Apache Airflow sur AWS

Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Airflow, Hive, Oozie, Spark, PySpark, Data Engineering, DevOps, Docker, Docker Compose, Enseignement et tutorial, Tools, AWS, Amazon S3, Python

Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…

COINTEPAS Aargan

By COINTEPAS Aargan

5 mai 2020

Exposer un cluster Ceph basé sur Rook à l'extérieur de Kubernetes

Catégories : Orchestration de conteneurs | Tags : Big Data, Conteneur, Debug, Docker, Rook, SSH, Ceph, Kubernetes

Nous avons récemment créé un cluster Hadoop basé sur des containers LXD et nous voulions être en mesure d’appliquer des quotas sur certains filesystems (par exemple : logs de service, repertoires…

SCHOUKROUN Leo

By SCHOUKROUN Leo

16 avr. 2020

Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas

Catégories : Business Intelligence, Cloud computing | Tags : Cloud, AWS, Lac de données, Data Science, Entrepôt de données (Data Warehouse), GCP, Azure, Snowflake

Snowflake est une plateforme d’entrepôt de données en mode SaaS qui centralise, dans le cloud, le stockage et le traitement de données structurées et semi-structurées. La génération croissante de…

HAMELIN-BOYER Jules

By HAMELIN-BOYER Jules

7 avr. 2020

Optimisation d'applicationS Spark dans Hadoop YARN

Catégories : Data Engineering, Formation | Tags : Mesos, Spark, YARN, Big Data, Performance, Hadoop, Clustering, Kubernetes, Python

Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…

DE BAECQUE Ferdinand

By DE BAECQUE Ferdinand

30 mars 2020

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Catégories : Data Engineering, Data Science, Formation | Tags : Arch Linux, Deep Learning, R, Spark MLlib, AWS, Databricks, Déploiement, Keras, Machine Learning, Azure, MLflow, Python, PyTorch, TensorFlow, XGBoost, MXNet, Scikit-learn, MLOps

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Catégories : Data Science, Tech Radar | Tags : API, CLI, Deep Learning, Format de fichier, Enseignement et tutorial, Serveur, Machine Learning, Machine Learning, Python

Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…

SOARES Robert Walid

By SOARES Robert Walid

2 mars 2020

Installer et débugger Kubernetes dans LXD

Catégories : Orchestration de conteneurs | Tags : Conteneur, Debug, Docker, Linux, LXD, Kubernetes

Nous avons récemment déployé des clusters Kubernetes avec le besoin de collocalliser les clusters sur des noeuds physiques au sein de nos infrastructures. Nous aurions pu utiliser des machines…

SCHOUKROUN Leo

By SCHOUKROUN Leo

4 févr. 2020

Sécurisation des services avec Open Policy Agent

Catégories : Cybersécurité, Gouvernance des données | Tags : Kafka, Ranger, Autorisation, Big Data, Cloud, Docker, Go, REST, Tools, Kubernetes, SSL/TLS

Open Policy Agent est un un moteur de règles multifonction. L’objectif principal du projet est de centraliser l’application de règles de sécurité à travers la stack cloud native. Le projet a été crée…

SCHOUKROUN Leo

By SCHOUKROUN Leo

22 janv. 2020

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.