Apache ORC
Articles associés
Développement accéléré de modèles avec H2O AutoML et Flow
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…
10 déc. 2020
Comparaison de différents formats de fichier en Big Data
Catégories : Big Data, Data Engineering | Tags : Analytique, Avro, HDFS, Hive, Kafka, MapReduce, ORC, Spark, Traitement par lots, Big Data, CSV, Analyse de données, Data structures, Base de données, JSON, Protocol Buffers, Hadoop, Parquet, Kubernetes, XML
Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…
By NGOM Aida
23 juil. 2020
Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Lac de données, Format de fichier, Registre, Schéma
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
By WORMS David
18 juin 2018
Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, ORC, Spark, PySpark, Docker, Streaming, Performance, Spark MLlib, Kubernetes, pandas
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
23 mai 2018
Questions essentielles sur les base de données Time Series
Catégories : Big Data | Tags : Druid, Hive, ORC, Elasticsearch, Graphana, IOT, HBase
Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…
By WORMS David
19 mars 2018
Stockage HDFS et Hive - comparaison des formats de fichiers et compressions
Catégories : Data Engineering | Tags : Analytique, Hive, ORC, Parquet, Format de fichier
Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…
By WORMS David
15 juil. 2012