Storage
Le stockage est la capacité de conserver des informations numériques sur un composant informatique. En pratique, le stockage est organisé en hiérarchie, en plaçant les données chaudes nécessitant un accès rapide mais coûteux au plus proche de la CPU, et les données froides plus loin sur des périphériques plus lents mais persistants parfois accessible via le réseau. Un stockage rapide mais volatile s'appelle le plus souvent "mémoire". Les principales caractéristiques du stockage sont notamment la volatilité, la mutabilité, l’accessibilité, l’adressabilité, la capacité, les performances, la consommation d’énergie et la sécurité.
Articles associés
OAuth2 et OpenID Connect, une introduction douce et fonctionnelle (Part 1)
Catégories : Orchestration de conteneurs, Cybersécurité | Tags : CNCF, Go, JAMstack, LDAP, Kubernetes, OpenID Connect
La compréhension d’OAuth2, d’OpenID et d’OpenID Connect (OIDC), comment ils sont liés, comment les communications sont établies, comment s’architecture votre application et que faire des différents…
By WORMS David
17 nov. 2020
Versionnage des données et ML reproductible avec DVC et MLflow
Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Git, Databricks, Delta Lake, Machine Learning, MLflow, Storage
Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…
30 sept. 2020
Rook via Ceph n'approvisionne pas mes Persistent Volume Claims !
Catégories : DevOps & SRE | Tags : PVC, Linux, Rook, Ubuntu, Ceph, Cluster, Kubernetes
L’installation de Ceph dans un cluster Kubernetes peut être automatisé par l’utilisation de Rook. Actuellement en stage chez Adaltas, j’étais en charge de participer à la configuration d’un cluster…
9 sept. 2019
Apache Hive 3, nouvelles fonctionnalités et conseils et astuces
Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Hadoop, Versions et évolutions
Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…
25 juil. 2019
Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Flink, Pipeline, Streaming, Kubernetes, Machine Learning, SQL
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
5 nov. 2018
YARN et le calcul distribué sur GPU pour le machine learning
Catégories : Data Science, DataWorks Summit 2018 | Tags : YARN, GPU, Machine Learning, Réseau de neurones, Storage
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
By JOUET Grégor
30 mai 2018
Notes sur Katacoda relatives à l'orchestrateur de conteneur Kubernetes
Catégories : Orchestration de conteneurs, Formation | Tags : Helm, Ingress, Kubeadm, CNI, Micro Services, Minikube, Kubernetes
Il y a quelques semaines, j’ai consacré deux jours pour suivre les cours relatifs à la solution d’orchestration de *container Kubernetes mis à disposition sur la plateforme Katacoda. Je partage ces…
By WORMS David
8 janv. 2018
Méthodes de stockage persistées dans Kubernetes
Catégories : Cloud computing, Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Docker, Container Storage Interface (CSI), PVC, GCE, Kubernetes, Azure, Storage
Cet article est basé sur la présentation “Introduction to Kubernetes Storage Primitives for Stateful Workloads” par the {Code} team à la conférence OSS 2017 à Prague. Commençons par qu’est-ce que…
28 oct. 2017
Kubernetes 1.8
Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : containerd, CRD, Réseau, OCI, RBAC, Kubernetes, Versions et évolutions
L’arrivée de Kubernetes 1.8 apporte son lot de nouveautés. Grâce à plus de 2500 pull requests, 2000 commits, avec environ 400 commiters, Kubernetes a su rajouter 39 fonctionnalités en plus à la…
24 oct. 2017
Hive, Calcite et Druid
Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop
BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…
By WORMS David
14 juil. 2016
L'offre Red Hat Storage et son intégration avec Hadoop
Catégories : Big Data | Tags : HDFS, GlusterFS, Red Hat, Hadoop, Storage
J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins…
By WORMS David
3 juil. 2015
Stockage HDFS et Hive - comparaison des formats de fichiers et compressions
Catégories : Data Engineering | Tags : Analytique, Hive, ORC, Parquet, Format de fichier
Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…
By WORMS David
15 juil. 2012
Deux Hive UDAF pour convertir une aggregation vers une map
Catégories : Data Engineering | Tags : Hive, Java, HBase, Format de fichier
Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…
By WORMS David
6 mars 2012
Stockage et traitement massif avec Hadoop
Catégories : Big Data | Tags : HDFS, Hadoop, Storage
Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés…
By WORMS David
26 nov. 2010