Format de fichier

Un format de fichier est un type de représentation des données qui sont stockées dans un fichier. Le type de format est identifié grâce à l'extension du fichier (e.g .csv). Cette représentation permet aux logiciels adaptés aux formats en question de pouvoir décoder les informations contenues dans le fichier, ainsi que l'interopérabilité entre logiciels ou d'autres programmes informatiques. Choisir un format de fichier apprioprié a également une importance capitale dans l'univers du traitement de données. Car selon les cas d'usages, il existe des formats plus adaptés que d'autres à cause de leurs spécificités. Par exemple, CSV est un format trés compréhensible et largement utlisé malgré son manque de formalisme.

Articles associés

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Catégories : Data Science, Tech Radar | Tags : Deep Learning, Enseignement et tutorial, Machine Learning, Machine Learning, Python

Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…

SOARES Robert Walid

By SOARES Robert Walid

2 mars 2020

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Catégories : Data Engineering, Formation | Tags : Spark, Apache Spark Streaming, Streaming, Python

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

28 mai 2019

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Registre, Schéma, Lac de données, Format de fichier

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

WORMS David

By WORMS David

18 juin 2018

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Catégories : Data Engineering | Tags : Analytique, Hive, ORC, Parquet, Format de fichier

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…

WORMS David

By WORMS David

15 juil. 2012

Deux Hive UDAF pour convertir une aggregation vers une map

Catégories : Data Engineering | Tags : Hive, Java, HBase, Format de fichier

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…

WORMS David

By WORMS David

6 mars 2012

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.