Support Ukrain
Adaltas logoAdaltasAdaltas logoAdaltas

Apache Avro

Avro est un format de sérialisation de données orienté lignes hébergé par la fondation Apache. Un fichier Avro se compose d'un en-tête, sérialisé au format JSON, suivi des données. Les données sont sérialisées en JSON ou en binaire. La majorité des applications stocke les données au format binaire pour des raisons de performance. Il est plus petit et plus rapide. Ainsi, le schéma est interprétable par les machines, tout en restant lisible par les humains, et les données sont hautement optimisées. Une autre caractéristique clé est que les fichiers binaires avro sont compressibles et divisibles.

Avro est particulièrement adapté aux données qui nécessitent un schéma qui peut potentiellement changer. En effet, il supporte le typage dynamique des données, car le schéma peut être modifié. Différentes versions du schéma sont enregistrées, ce qui permet la résolution des conflits de schémas. Ceci est utile pour gérer la qualité des données dans les applications de traitement de flux de données comme Kafka. Les consommateurs peuvent s'adapter au schéma actuellement disponible. De plus, les consommateurs et les opérations Hadoop MapReduce peuvent profiter de la divisibilité des fichiers binaires pour le traitement parallèle.

Les types de données pris en charge sont :

  • Primitifs : null, boolean, int, long, float, double, bytes et string.
  • Complexes : arrays, enums, fixed, maps, records, et unions.

Avro peut également être utilisé pour échanger des données (RPC) en partageant le schéma pendant la connexion. La compressibilité des fichiers augmente l'efficacité des échanges et le stockage de données.

En savoir plus
Site officiel

Articles associés

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost

H20 est livré avec de nombreuses fonctionnalités. La deuxième partie de la série H2O en pratique propose un protocole pour combiner la modélisation AutoML avec des approches de modélisation et d…

Canada - Maroc - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.