Protocol Buffers

Protocol Buffers est un format de sérialisation utilisé pour l'échange et le stockage de données. Les cas d'utilisation incluent les traitements par batch et en streaming et la communication entre plusieurs microservices indépendamment de la plate-forme. Protocol Buffers se concentre uniquement sur la capacité de sérialiser et de désérialiser les données aussi rapidement que possible et de rendre les données aussi petites que possible pour réduire la bande passante requise. De plus, Protocol Buffers, comme AVRO, prend en charge l'évolution du schéma. Il utilise un fichier binaire pour la définition du schéma. D'autre part, Protocol Buffers ne divise pas les données comme CSV et ne prend pas en charge la compression des données (contrairement à ORC, Parquet et AVRO).

Protocol Buffers a été créé par Google en 2008 sous le nom de ProtoBuf. C'est la méthode de sérialisation la plus couramment utilisé par gRPC. Protocol Buffers ne prenait initialement en charge que trois langages : C++, Java et Python. Aujourd'hui, Protocol Buffers prend en charge des langages supplémentaires tels que Go, Ruby, JS, PHP, C# et Objective C.

En savoir plus: Wikipédia
Tags associés: Big Data; gRPC

Articles associés

Comparaison de différents formats de fichier en Big Data

Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers

Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…

Par NGOM Aida

23 juil. 2020

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : NiFi, Gouvernance des données, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

Par WORMS David

18 juin 2018