Apache Avro

Avro est un format de sérialisation de données orienté lignes hébergé par la fondation Apache. Un fichier Avro se compose d'un en-tête, sérialisé au format JSON, suivi des données. Les données sont sérialisées en JSON ou en binaire. La majorité des applications stocke les données au format binaire pour des raisons de performance. Il est plus petit et plus rapide. Ainsi, le schéma est interprétable par les machines, tout en restant lisible par les humains, et les données sont hautement optimisées. Une autre caractéristique clé est que les fichiers binaires avro sont compressibles et divisibles.

Avro est particulièrement adapté aux données qui nécessitent un schéma qui peut potentiellement changer. En effet, il supporte le typage dynamique des données, car le schéma peut être modifié. Différentes versions du schéma sont enregistrées, ce qui permet la résolution des conflits de schémas. Ceci est utile pour gérer la qualité des données dans les applications de traitement de flux de données comme Kafka. Les consommateurs peuvent s'adapter au schéma actuellement disponible. De plus, les consommateurs et les opérations Hadoop MapReduce peuvent profiter de la divisibilité des fichiers binaires pour le traitement parallèle.

Les types de données pris en charge sont :

Primitifs : null, boolean, int, long, float, double, bytes et string.
Complexes : arrays, enums, fixed, maps, records, et unions.

Avro peut également être utilisé pour échanger des données (RPC) en partageant le schéma pendant la connexion. La compressibilité des fichiers augmente l'efficacité des échanges et le stockage de données.

En savoir plus: Site officiel
Tags associés: Apache ORC; Apache Parquet; Format de fichier

Articles associés

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, HDF, Exploitation, Avro, Hive, NiFi, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

Par WORMS David

18 juin 2018

Comparaison de différents formats de fichier en Big Data

Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers

Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…

Par NGOM Aida

23 juil. 2020

Développement accéléré de modèles avec H2O AutoML et Flow

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…

Par KAFERLE DEVISSCHERE Petra

10 déc. 2020

Espace de stockage et temps de génération des formats de fichiers

Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)

Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…

Par NGOM Barthelemy

22 mars 2021

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost

H20 est livré avec de nombreuses fonctionnalités. La deuxième partie de la série H2O en pratique propose un protocole pour combiner la modélisation AutoML avec des approches de modélisation et d…

Par KAFERLE DEVISSCHERE Petra

12 nov. 2021

H2O en pratique: retour d'expérience d'un Data Scientist

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

Les plates-formes d’apprentissage automatique (AutoML) gagnent en popularité et deviennent un outil puissant à disposition des data scientists. Il y a quelques mois, j’ai présenté H2O, une plate-forme…

Par KAFERLE DEVISSCHERE Petra

29 sept. 2021