Apache Kafka
Articles associés
Comparaison de différents formats de fichier en Big Data
Catégories : Big Data, Data Engineering | Tags : Analytique, Avro, HDFS, Hive, Kafka, MapReduce, ORC, Spark, Traitement par lots, Big Data, CSV, Analyse de données, Data structures, Base de données, JSON, Protocol Buffers, Hadoop, Parquet, Kubernetes, XML
Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…
By NGOM Aida
23 juil. 2020
Sécurisation des services avec Open Policy Agent
Catégories : Cybersécurité, Gouvernance des données | Tags : Kafka, Ranger, Autorisation, REST, Cloud, Kubernetes, SSL/TLS
Open Policy Agent est un un moteur de règles multifonction. L’objectif principal du projet est de centraliser l’application de règles de sécurité à travers la stack cloud native. Le projet a été crée…
22 janv. 2020
Migration Big Data et Data Lake vers le Cloud
Catégories : Big Data, Cloud computing | Tags : DevOps, AWS, Cloud, CDP, Databricks, GCP, Azure
Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…
9 déc. 2019
Stage Data Science & Data Engineer - ML en production et ingestion streaming
Catégories : Data Engineering, Data Science | Tags : Flink, Kafka, Spark, DevOps, Hadoop, HBase, Kubernetes, Python
Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…
By WORMS David
26 nov. 2019
Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes
Catégories : Big Data, Orchestration de conteneurs | Tags : Kafka, Spark, DevOps, LXD, NoSQL, Hadoop, Ceph, Kubernetes
Contexte L’acquisition d’un cluster à forte capacité répond à la volonté d’Adaltas de construire une offre de type PAAS pour disposer et mettre à disposition des plateformes de Big Data et d…
By WORMS David
26 nov. 2019
Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…
30 sept. 2019
Apache Hive 3, nouvelles fonctionnalités et conseils et astuces
Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Hadoop, Versions et évolutions
Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…
25 juil. 2019
Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming
Catégories : Data Engineering, Formation | Tags : Kafka, Spark, Apache Spark Streaming, Big Data, Streaming
Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…
18 avr. 2019
Déploiement d'un cluster Flink sécurisé sur Kubernetes
Catégories : Big Data | Tags : Flink, HDFS, Kafka, Elasticsearch, Chiffrement, Kerberos, SSL/TLS
Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…
By WORMS David
8 oct. 2018
Lando : résumé de conversation en Deep Learning
Catégories : Data Science, Formation | Tags : Deep Learning, Micro Services, Open API, Kubernetes, Réseau de neurones, Node.js
Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…
By HATI Yliess
18 sept. 2018
Remède à l'aveuglement de Kafka
Catégories : Big Data | Tags : Ambari, Kafka, Ranger, Hortonworks, HDP, HDF, JMX, UI
Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…
20 juin 2018
Apache Metron dans le monde réel
Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithme, HDFS, Kafka, NiFi, Solr, Spark, Storm, Elasticsearch, pcap, SGBDR, Metron, Data Science, SQL
Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…
29 mai 2018
Exposition de brokers Kafka sur deux interfaces réseaux
Catégories : Infrastructure | Tags : Kafka, Cloudera, Cybersécurité, Réseau, VLAN, CDH
Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…
22 juil. 2017
Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Kafka, Storm, Tools, Hadoop, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
17 juil. 2016