Storage

Le stockage est la capacité de conserver des informations numériques sur un composant informatique. En pratique, le stockage est organisé en hiérarchie, en plaçant les données chaudes nécessitant un accès rapide mais coûteux au plus proche de la CPU, et les données froides plus loin sur des périphériques plus lents mais persistants parfois accessible via le réseau. Un stockage rapide mais volatile s'appelle le plus souvent "mémoire". Les principales caractéristiques du stockage sont notamment la volatilité, la mutabilité, l’accessibilité, l’adressabilité, la capacité, les performances, la consommation d’énergie et la sécurité.

Articles associés

Versionnage des données et ML reproductible avec DVC et MLflow

Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Git, Databricks, Delta Lake, Machine Learning, MLflow, Storage

Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…

Rook via Ceph n'approvisionne pas mes Persistent Volume Claims !

Catégories : DevOps & SRE | Tags : PVC, Linux, Rook, Ubuntu, Ceph, Cluster, Kubernetes

L’installation de Ceph dans un cluster Kubernetes peut être automatisé par l’utilisation de Rook. Actuellement en stage chez Adaltas, j’étais en charge de participer à la configuration d’un cluster…

CHOJNOWSKI Eyal

By CHOJNOWSKI Eyal

9 sept. 2019

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Versions et évolutions, Hadoop

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

LEONARD Gauthier

By LEONARD Gauthier

25 juil. 2019

Apache Flink : passé, présent et futur

Catégories : Data Engineering | Tags : Flink, Pipeline, Streaming, Kubernetes, Machine Learning, SQL

Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…

BEREZOWSKI César

By BEREZOWSKI César

5 nov. 2018

YARN et le calcul distribué sur GPU pour le machine learning

Catégories : Data Science, DataWorks Summit 2018 | Tags : YARN, GPU, Machine Learning, Réseau de neurones, Storage

Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…

JOUET Grégor

By JOUET Grégor

30 mai 2018

Notes sur Katacoda relatives à l'orchestrateur de conteneur Kubernetes

Catégories : Orchestration de conteneurs, Formation | Tags : Helm, Ingress, Kubeadm, CNI, Micro Services, Minikube, Kubernetes

Il y a quelques semaines, j’ai consacré deux jours pour suivre les cours relatifs à la solution d’orchestration de *container Kubernetes mis à disposition sur la plateforme Katacoda. Je partage ces…

WORMS David

By WORMS David

8 janv. 2018

Méthodes de stockage persistées dans Kubernetes

Catégories : Cloud computing, Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Docker, Container Storage Interface (CSI), PVC, GCE, Kubernetes, Azure, Storage

Cet article est basé sur la présentation “Introduction to Kubernetes Storage Primitives for Stateful Workloads” par the {Code} team à la conférence OSS 2017 à Prague. Commençons par qu’est-ce que…

SAUVAGE Pierre

By SAUVAGE Pierre

28 oct. 2017

Kubernetes 1.8

Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : containerd, CRD, Réseau, OCI, RBAC, Versions et évolutions, Kubernetes

L’arrivée de Kubernetes 1.8 apporte son lot de nouveautés. Grâce à plus de 2500 pull requests, 2000 commits, avec environ 400 commiters, Kubernetes a su rajouter 39 fonctionnalités en plus à la…

YASSINE Younes

By YASSINE Younes

24 oct. 2017

Hive, Calcite et Druid

Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop

BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…

WORMS David

By WORMS David

14 juil. 2016

L'offre Red Hat Storage et son intégration avec Hadoop

Catégories : Big Data | Tags : HDFS, GlusterFS, Red Hat, Hadoop, Storage

J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins…

WORMS David

By WORMS David

3 juil. 2015

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Catégories : Data Engineering | Tags : Analytique, Hive, ORC, Parquet, Format de fichier

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…

WORMS David

By WORMS David

15 juil. 2012

Deux Hive UDAF pour convertir une aggregation vers une map

Catégories : Data Engineering | Tags : Hive, Java, HBase, Format de fichier

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…

WORMS David

By WORMS David

6 mars 2012

Stockage et traitement massif avec Hadoop

Catégories : Big Data | Tags : HDFS, Hadoop, Storage

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés…

WORMS David

By WORMS David

26 nov. 2010

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.