Format de fichier

Un format de fichier est un type de représentation des données qui organize les données dans un fichier. Le type de format est souvent associé et identifié à l'extension du fichier (e.g .csv). Cette représentation permet aux logiciels adaptés aux formats en question de pouvoir décoder les informations contenues dans le fichier, ainsi que l'interopérabilité entre logiciels ou d'autres programmes informatiques.

Choisir un format de fichier apprioprié a également une importance capitale dans l'univers du traitement de données. Car selon les cas d'usages, il existe des formats plus adaptés que d'autres à cause de leurs spécificités. Par exemple, CSV est un format trés compréhensible et largement utlisé malgré son manque de formalisme.

Articles associés

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Format de fichier

Les architectures de base de données ont fait l’objet d’une innovation constante, évoluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…

HOLDORF Guillaume

Par HOLDORF Guillaume

17 mai 2022

Version 6 du package CSV pour Node.js

Version 6 du package CSV pour Node.js

Catégories : Node.js | Tags : Data Engineering, Refactoring, CSV, Format de fichier, Versions et évolutions

La dernière version du package pour Node.js vient d’être publiée ainsi que celles de ses sous-projects. Voici les versions publiées : version , précédente version NPM version , précédente version…

WORMS David

Par WORMS David

15 nov. 2021

Espace de stockage et temps de génération des formats de fichiers

Espace de stockage et temps de génération des formats de fichiers

Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)

Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…

NGOM Barthelemy

Par NGOM Barthelemy

22 mars 2021

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Catégories : Data Science, Tech Radar | Tags : Enseignement et tutorial, Deep Learning, Machine Learning, Machine Learning, Python

Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…

SOARES Robert Walid

Par SOARES Robert Walid

2 mars 2020

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Catégories : Data Engineering, Formation | Tags : Apache Spark Streaming, Spark, Python, Streaming

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…

RYNKIEWICZ Oskar

Par RYNKIEWICZ Oskar

28 mai 2019

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : NiFi, Gouvernance des données, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

WORMS David

Par WORMS David

18 juin 2018

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Catégories : Data Engineering | Tags : Business Intelligence, Hive, ORC, Parquet, Format de fichier

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…

WORMS David

Par WORMS David

13 mars 2012

Deux Hive UDAF pour convertir une aggregation vers une map

Deux Hive UDAF pour convertir une aggregation vers une map

Catégories : Data Engineering | Tags : Java, HBase, Hive, Format de fichier

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…

WORMS David

Par WORMS David

6 mars 2012

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain