Apache Kafka

Apache Kafka est une plateforme open source pour le traitement de flux. Le logiciel a été initialement développé par LinkedIn et écrit dans les langages de programmation Scala et Java. En 2011, Kafka a rejoint la fondation Apache. Le logiciel a été nommé d'après l'auteur Franz Kafka car il représente un système optimisé pour l'écriture.

L'objectif du projet est de fournir une plateforme unifiée à haut débit et à faible latence pour le traitement des flux de données en temps réel. Kafka peut se connecter à des systèmes externes et, avec Kafka Streams, propose un traitement de flux en Java.

Kafka est largement utilisé dans les architectures de données de streaming en temps réel pour fournir des analyses en temps réel. Il est conçu pour:

  • Publication et abonnement aux flux de données
  • Stockage efficace des flux de données
  • Traitez et analyser les flux en temps réel

Le logiciel étant un système de messagerie de publication-abonnement (publish-subscribe) rapide, évolutif et tolérant aux pannes, Kafka est utilisé dans les cas d'utilisation où les systèmes de messagerie Java Message Service (JMS), RabbitMQ et AMQP peuvent ne pas être pris en compte en raison du volume et de la réactivité. Kafka offre des propriétés de débit et de fiabilité plus élevées et convient donc aux volumes de données élevés avec lesquels les Message Oriented Middleware (MOM) conventionnels peuvent être submergés.

En savoir plus
Site officiel
Tags associés
NATS
Streaming

Articles associés

Stage de fin d'étude printemps 2022 - construction d'un Data Lab

Stage de fin d'étude printemps 2022 - construction d'un Data Lab

Catégories : Data Science, Formation | Tags : Spark, Argo CD, Elasticsearch, Internship, Keycloak, Kubernetes, MongoDB, OpenID Connect, PostgreSQL

Descriptif du stage Au cours des dernières années, nous avons développé la capacité d’utiliser les ordinateurs pour traiter une grande quantité de données. L’écosystème a évolué vers une offre étendue…

WORMS David

Par WORMS David

24 nov. 2021

Stage de fin d'étude printemps 2022 en Data Engineering

Stage de fin d'étude printemps 2022 en Data Engineering

Catégories : Front End, Formation | Tags : Métriques, Supervision, Hadoop, Hive, Kafka, Delta Lake, Elasticsearch, IaC, Internship, Kubernetes, MLflow, Prometheus, Streaming, TFX

Descriptif du stage La donnée est un actif précieux des entreprises. Le data engineer collecte, convertit et valorise la donnée brute en une information exploitable par les business analysts et les…

WORMS David

Par WORMS David

25 oct. 2021

Comparaison de différents formats de fichier en Big Data

Comparaison de différents formats de fichier en Big Data

Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers

Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…

NGOM Aida

Par NGOM Aida

23 juil. 2020

Sécurisation des services avec Open Policy Agent

Sécurisation des services avec Open Policy Agent

Catégories : Cybersécurité, Gouvernance des données | Tags : Ranger, REST, Kafka, Autorisation, Cloud, Kubernetes, SSL/TLS

Open Policy Agent est un un moteur de règles multifonction. L’objectif principal du projet est de centraliser l’application de règles de sécurité à travers la stack cloud native. Le projet a été crée…

SCHOUKROUN Leo

Par SCHOUKROUN Leo

22 janv. 2020

Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming

Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming

Catégories : Data Engineering, Formation | Tags : Apache Spark Streaming, Kafka, Spark, Big Data, Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…

RYNKIEWICZ Oskar

Par RYNKIEWICZ Oskar

18 avr. 2019

Migration Big Data et Data Lake vers le Cloud

Migration Big Data et Data Lake vers le Cloud

Catégories : Big Data, Cloud computing | Tags : DevOps, AWS, Azure, Cloud, CDP, Databricks, GCP

Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…

RUMMENS Joris

Par RUMMENS Joris

9 déc. 2019

Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes

Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes

Catégories : Big Data, Orchestration de conteneurs | Tags : DevOps, LXD, NoSQL, Hadoop, Kafka, Spark, Ceph, Internship, Kubernetes

Contexte L’acquisition d’un cluster à forte capacité répond à la volonté d’Adaltas de construire une offre de type PAAS pour disposer et mettre à disposition des plateformes de Big Data et d…

WORMS David

Par WORMS David

26 nov. 2019

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Catégories : Data Engineering, Data Science | Tags : Flink, DevOps, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python

Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…

WORMS David

Par WORMS David

26 nov. 2019

Mise en production d'un modèle de Machine Learning

Mise en production d'un modèle de Machine Learning

Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma

“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…

RYNKIEWICZ Oskar

Par RYNKIEWICZ Oskar

30 sept. 2019

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, JDBC, LLAP, Hadoop, Hive, Kafka, Versions et évolutions

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

LEONARD Gauthier

Par LEONARD Gauthier

25 juil. 2019

Déploiement d'un cluster Flink sécurisé sur Kubernetes

Déploiement d'un cluster Flink sécurisé sur Kubernetes

Catégories : Big Data | Tags : Flink, Chiffrement, Kerberos, HDFS, Kafka, Elasticsearch, SSL/TLS

Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…

WORMS David

Par WORMS David

8 oct. 2018

Lando : résumé de conversation en Deep Learning

Lando : résumé de conversation en Deep Learning

Catégories : Data Science, Formation | Tags : Micro Services, Open API, Deep Learning, Internship, Kubernetes, Réseau de neurones, Node.js

Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…

HATI Yliess

Par HATI Yliess

18 sept. 2018

Remède à l'aveuglement de Kafka

Remède à l'aveuglement de Kafka

Catégories : Big Data | Tags : Ambari, Ranger, Hortonworks, HDP, HDF, JMX, UI, Kafka

Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…

BAKALIAN Lucas

Par BAKALIAN Lucas

20 juin 2018

Apache Metron dans le monde réel

Apache Metron dans le monde réel

Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithme, NiFi, Solr, Storm, pcap, SGBDR, HDFS, Kafka, Metron, Spark, Data Science, Elasticsearch, SQL

Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…

HATOUM Michael

Par HATOUM Michael

29 mai 2018

Exposition de brokers Kafka sur deux interfaces réseaux

Exposition de brokers Kafka sur deux interfaces réseaux

Catégories : Infrastructure | Tags : Cybersécurité, VLAN, Kafka, Cloudera, CDH, Réseau

Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…

BEREZOWSKI César

Par BEREZOWSKI César

22 juil. 2017

Apache Apex : l'analytique Big Data nouvelle génération

Apache Apex : l'analytique Big Data nouvelle génération

Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Storm, Tools, Hadoop, Kafka, Data Science, Machine Learning

Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…

BEREZOWSKI César

Par BEREZOWSKI César

17 juil. 2016

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain