Amazon Simple Storage Service (S3)
Amazon S3 est un service de stockage pour le Cloud conçu pour la sauvegarde et l'archivage en ligne de données à haute vitesse d'accès et à faible coût. Afin de simplifier au maximum le passage à l'échelle pour les développeurs, S3 a été conçu intentionnellement avec un ensemble minimal de fonctionnalités. Amazon S3 est un service de stockage d'objets. Le concept de stockage d'objets est différent du stockage de fichiers et de blocs. Chaque objet est classé avec un numéro d'identification et des métadonnées associées. Les applications utilisent ce numéro d'identification pour accéder à un objet.
Articles associés
Importer ses données dans Databricks : tables externes et Delta Lake
Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…
21 mai 2020
Premier pas avec Apache Airflow sur AWS
Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Airflow, Oozie, Spark, PySpark, Docker, Enseignement et tutorial, AWS, Python
Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…
5 mai 2020
Cloudera CDP et migration Cloud de votre Data Warehouse
Catégories : Big Data, Cloud computing | Tags : Cloudera, Data Hub, Lac de données, Entrepôt de données (Data Warehouse), Azure
Alors que l’un de nos clients anticipe un passage vers le Cloud et avec l’annonce récente de la disponibilité de Cloudera CDP mi-septembre lors de la conférence Strata, il semble que le moment soit…
By WORMS David
16 déc. 2019
Migration Big Data et Data Lake vers le Cloud
Catégories : Big Data, Cloud computing | Tags : DevOps, AWS, Cloud, CDP, Databricks, GCP, Azure
Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…
9 déc. 2019
Hadoop Ozone partie 3: Stratégie de réplication avancée avec les Copyset
Catégories : Infrastructure | Tags : HDFS, Ozone, Cluster, Kubernetes, Noeud
Hadoop Ozone propose de configurer le type de réplication à chaque écriture effectué sur le cluster. Actuellement seules HDFS et Ratis sont disponibles mais des stratégies plus avancées sont…
3 déc. 2019
Hadoop Ozone partie 2: tutorial et démonstration des fonctionnalités
Catégories : Infrastructure | Tags : HDFS, CLI, Enseignement et tutorial, REST, Ozone, Amazon S3, Cluster
Les versions d’Hadoop Ozone sont livrées avec des fichiers docker-compose très pratique pour tester Ozone. Les instructions ci-dessous apportent des détails sur comment les utiliser. Il est aussi…
3 déc. 2019
Hadoop Ozone partie 1: introduction du nouveau système de fichiers
Catégories : Infrastructure | Tags : HDFS, Ozone, Cluster, Kubernetes
Hadoop Ozone est système de stockage d’objet pour Hadooop. Il est conçu pour supporter des milliards d’objets de tailles diverses. Il est actuellement en développement. La feuille de route est…
3 déc. 2019