Articles publiés en 2020

Installation d'Hadoop depuis le code source: build, patch et exécution

Catégories : Big Data, Infrastructure | Tags : HDFS, Maven, Debug, Docker, HDP, Java, LXD, Tests unitaires, Hadoop, CDP

Les distributions commerciales d’Apache Hadoop ont beaucoup évolué ces dernières années. Les deux concurrents Cloudera et Hortonworks ont fusionné : HDP ne sera plus maintenu et CDH devient CDP. HP a…

SCHOUKROUN Leo

By SCHOUKROUN Leo

4 août 2020

Téléchargement de jeux de données dans HDFS et Hive

Catégories : Big Data, Data Engineering | Tags : Analytique, HDFS, Hive, Big Data, Analyse de données, Data Engineering, Data structures, Base de données, Hadoop, Lac de données, Entrepôt de données (Data Warehouse)

Introduction De nos jours, l’analyse de larges quantités de données devient de plus en plus possible grâce aux technologies du Big data (Hadoop, Spark,…). Cela explique l’explosion du volume de…

NGOM Aida

By NGOM Aida

31 juil. 2020

Comparaison de différents formats de fichier en Big Data

Catégories : Big Data, Data Engineering | Tags : Analytique, Avro, HDFS, Hive, Kafka, MapReduce, ORC, Spark, Traitement par lots, Big Data, CSV, Analyse de données, Data structures, Base de données, JSON, Protocol Buffers, Hadoop, Parquet, Kubernetes, XML

Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…

NGOM Aida

By NGOM Aida

23 juil. 2020

Automatisation d'un workflow Spark sur GCP avec GitLab

Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Airflow, Spark, CI/CD, Data Engineering, DevOps, Git, Enseignement et tutorial, Tests unitaires, Cloud, GitLab, GCE, GCP, Terraform, IAM

Un workflow consiste à automiatiser une succéssion de tâche qui dont être menée indépendemment d’une intervention humaine. C’est un concept important et populaire, s’appliquant particulièrement à un…

DE BAECQUE Ferdinand

By DE BAECQUE Ferdinand

16 juin 2020

Importer ses données dans Databricks : tables externes et Delta Lake

Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Machine Learning, Azure, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

Premier pas avec Apache Airflow sur AWS

Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Airflow, Hive, Oozie, Spark, PySpark, Data Engineering, DevOps, Docker, Docker Compose, Enseignement et tutorial, Tools, AWS, Amazon S3, Python

Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…

COINTEPAS Aargan

By COINTEPAS Aargan

5 mai 2020

Exposer un cluster Ceph basé sur Rook à l'extérieur de Kubernetes

Catégories : Orchestration de conteneurs | Tags : Big Data, Conteneur, Debug, Docker, Rook, SSH, Ceph, Kubernetes

Nous avons récemment créé un cluster Hadoop basé sur des containers LXD et nous voulions être en mesure d’appliquer des quotas sur certains filesystems (par exemple : logs de service, repertoires…

SCHOUKROUN Leo

By SCHOUKROUN Leo

16 avr. 2020

Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas

Catégories : Business Intelligence, Cloud computing | Tags : AWS, Cloud, Lac de données, Data Science, Entrepôt de données (Data Warehouse), GCP, Azure, Snowflake

Snowflake est une plateforme d’entrepôt de données en mode SaaS qui centralise, dans le cloud, le stockage et le traitement de données structurées et semi-structurées. La génération croissante de…

HAMELIN-BOYER Jules

By HAMELIN-BOYER Jules

7 avr. 2020

Optimisation d'applicationS Spark dans Hadoop YARN

Catégories : Data Engineering, Formation | Tags : Mesos, Spark, YARN, Big Data, Performance, Hadoop, Clustering, Kubernetes, Python

Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…

DE BAECQUE Ferdinand

By DE BAECQUE Ferdinand

30 mars 2020

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Catégories : Data Engineering, Data Science, Formation | Tags : Arch Linux, Deep Learning, R, Spark MLlib, AWS, Databricks, Déploiement, Keras, Machine Learning, Azure, MLflow, MLOps, Python, PyTorch, TensorFlow, XGBoost, MXNet, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Catégories : Data Science, Tech Radar | Tags : API, CLI, Deep Learning, Format de fichier, Enseignement et tutorial, Serveur, Machine Learning, Machine Learning, Python

Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…

SOARES Robert Walid

By SOARES Robert Walid

2 mars 2020

Installer et débugger Kubernetes dans LXD

Catégories : Orchestration de conteneurs | Tags : Conteneur, Debug, Docker, Linux, LXD, Kubernetes

Nous avons récemment déployé des clusters Kubernetes avec le besoin de collocalliser les clusters sur des noeuds physiques au sein de nos infrastructures. Nous aurions pu utiliser des machines…

SCHOUKROUN Leo

By SCHOUKROUN Leo

4 févr. 2020

Sécurisation des services avec Open Policy Agent

Catégories : Cybersécurité, Gouvernance des données | Tags : Kafka, Ranger, Autorisation, Big Data, Docker, Go, REST, Tools, Cloud, Kubernetes, SSL/TLS

Open Policy Agent est un un moteur de règles multifonction. L’objectif principal du projet est de centraliser l’application de règles de sécurité à travers la stack cloud native. Le projet a été crée…

SCHOUKROUN Leo

By SCHOUKROUN Leo

22 janv. 2020

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.