Présentation d'OKDP, la plateforme data 100% libre sur Kubernetes

OKDP (Open Kubernetes Data Platform) est une plateforme de services déployée sur infrastructure Kubernetes, dédiée à la gestion de données de bout en bout. Elle vise à fournir une solution robuste et à la hauteur des exigences de l’entreprise, fondée sur un engagement fort envers les standards open source. Le projet est en développement actif ; voici un aperçu de ce que propose la platforme.

Initié par la Direction Générale des Finances Publiques, le projet réunit de nombreux contributeurs dont Orange, CGI, Kubotal et Adaltas.

Sous le capot

OKDP se compose de 2 couches principales : les modules Data & IA, et un Control Plane comprenant un serveur et une interface web.

Modules Data & IA

OKDP fournit un catalogue d’outils open source pré-intégrés, déployables indépendamment sur Kubernetes. Installez la stack complète ou sélectionnez uniquement les composants dont vous avez besoin. Les services sont organisés par fonction :

Lakehouse & Analytics
Orchestration
Data Science
Visualisation & BI
Ingestion & Streaming (prévu)
IA/MLOps (prévu)

Control Plane

Le socle de la plateforme, jouant le rôle de couche de gouvernance et d’automatisation, intègre l’ensemble des outils de manière transparente : gestion de l’authentification, du multi-tenancy, des ressources et de l’observabilité sur toute la stack. Il se compose d’un serveur et d’une interface web :

OKDP Server fournit une API REST unifiée pour gérer les déploiements, les clusters, les dépôts GitOps, etc.
OKDP UI offre un point de contrôle unique pour déployer, configurer et superviser les composants de la plateforme OKDP.

Principaux objectifs

Souveraineté par nature

OKDP est 100% open source et cloud-native. D’après l’enquête CNCF Cloud Native 2025, 98 % des organisations ont recours à des approches cloud native, et 82 % des utilisateurs de conteneurs font tourner Kubernetes en production (contre 66 % en 2023). En tant que projet mature hébergé par la CNCF, Kubernetes s’est imposé comme le système d’exploitation de facto de l’entreprise moderne. Dans la continuité de la philosophie open source du projet TDP de TOSIT — où l’orchestrateur et ses composants sous-jacents sont entièrement open source —, OKDP garantit à ses utilisateurs l’absence de vendor lock-in, tout en bénéficiant d’une architecture cloud-native portable, scalable et résiliente, quel que soit le fournisseur cloud (AKS, EKS, GKE, etc.).

Modularité et pérennité

OKDP propose une architecture hautement adaptable, qui évolue en fonction des besoins spécifiques en termes de charge de travail. Le concept est de permettre à chaque utilisateur ou chaque projet de construire sa plateforme sur mesure, en déployant les composants indépendamment, avec la granularité souhaitée. Chaque composant est distribué sous forme de chart Helm, ce qui permet de l’intégrer dans tout environnement Kubernetes existant, aux côtés des outils déjà en place, avec ou sans le Control Plane OKDP.

En s’appuyant sur une conception cloud-native, la plateforme fournit un cadre standardisé qui prévient l’accumulation de dette technique et simplifie la gestion du cycle de vie. Cette base favorise une modernisation continue grâce à des mises à jour automatisées et des montées de version modulaires, garantissant ainsi que la stack data reste à l’état de l’art et pérenne dans le temps.

Centré sur la donnée

En tant qu’écosystème complet de gestion des données, OKDP orchestre l’intégralité du cycle de vie de la donnée avec une gouvernance intégrée, au service de tous les acteurs de l’écosystème data : data scientists, data engineers, ingénieurs IA, et bien d’autres. Parmi les cas d’usage clés :

Analytics SQL haute performance et traitement distribué à grande échelle sur des pétaoctets de données.
Pipelines ETL quotidiens lisant et écrivant des données depuis et vers un stockage compatible S3.
Analyse interactive de données via JupyterLab, avec visualisation et exploration via Apache Superset.
Pipeline de machine learning et IA/MLOps de bout en bout pour les équipes data science.
Streaming temps réel et BI pour l’analytique opérationnelle.

Ensemble, ces capacités facilitent le partage de données entre équipes, éliminent les silos de stockage coûteux et minimisent les redondances à l’échelle de l’entreprise.

La prochaine release cette année

OKDP sera publié le 14 septembre 2026 ; l’équipe est actuellement concentrée sur la finalisation des dernières fonctionnalités et l’amélioration de l’expérience utilisateur.

Environnements

Les composants suivants sont inclus dans la prochaine release, organisés par fonction :

Lakehouse & Analytics

Apache Spark :
Spark est un moteur d’analytics unifié pour le traitement de données à grande échelle, supportant les charges de travail batch et streaming via plusieurs APIs de langages.
Trino :
Trino est un moteur de requêtes SQL distribué et haute performance, conçu pour interroger des jeux de données à grande échelle provenant de sources hétérogènes via une interface unique.
Apache Polaris :
Polaris est un catalog cloud-native pour Apache Iceberg, offrant une gestion centralisée des métadonnées et une interopérabilité entre moteurs de traitement.
Hive Metastore :
Hive Metastore est un référentiel de métadonnées centralisé pour les data lakes et les analytics big data.

Data Science

JupyterLab :
JupyterLab est un environnement web de type IDE pour notebooks et code. Son interface flexible permet aux utilisateurs de configurer des workflows en data science, machine learning et calcul scientifique.

Orchestration & Gouvernance

Apache Airflow :
Airflow est une plateforme open source d’orchestration de workflows, permettant aux équipes de développer, planifier et superviser leurs flux de travail.

Visualisation & BI

Apache Superset :
Superset est une plateforme d’exploration et de visualisation des données pour la business intelligence.

D’autres composants sont prévus pour les prochaines releases, notamment des outils d’ingestion, de streaming et d’IA/MLOps.

Helm et GitOps

Helm est un gestionnaire de packages qui facilite la définition, l’installation et la mise à niveau d’applications sur Kubernetes, permettant leur versionnement et leur publication via un registry. Combinée avec des solutions GitOps de référence telles qu’Argo CD, Flux CD, etc., cette approche Infrastructure-as-Code (IaC) robuste garantit une meilleure efficacité opérationnelle, une traçabilité accrue et une grande flexibilité dans la gestion des applications.

Objectifs futurs

Considérez la première release comme le point de départ du projet OKDP. De nombreuses évolutions sont en cours ; voici les principaux objectifs pour l’avenir.

Cycle de vie IA/ML

OKDP prévoit d’intégrer Kubeflow, MLflow et un outil de LLM Serving pour les capacités IA & MLOps, permettant aux équipes de mieux gérer le cycle de vie IA/ML.

Ingestion, streaming & gouvernance

La prise en charge de workflows d’ingestion ETL complexes, du streaming et du traitement temps réel est prévue, avec l’intégration d’Apache NiFi, Apache Kafka et Apache Flink.

Outils GitOps CD

Combiné aux charts Helm, un outil GitOps CD tire parti de fonctionnalités telles que le déploiement et la synchronisation automatiques, le contrôle de version et la détection de dérive. OKDP prévoit d’inclure Argo CD pour les fonctionnalités GitOps.

Outillage prévu

Les outils suivants sont attendus dans le futur, conformément aux objectifs définis ci-dessus.

Cycle de vie IA/ML

Kubeflow :
Kubeflow est une plateforme IA/ML comprenant plusieurs projets dédiés au déploiement et à la gestion des charges de travail IA/ML sur Kubernetes.
MLflow :
MLflow est une plateforme d’ingénierie IA pour les agents, les LLMs et les modèles ML. Elle se concentre sur le suivi des expériences, l’évaluation des modèles, un registre de modèles en production et des outils de déploiement.
LLM Serving :
Le LLM Serving désigne le processus d’hébergement et de mise à disposition d’un LLM ou d’un modèle IA en production pour traiter les requêtes utilisateurs et générer des réponses. L’outillage spécifique n’est pas encore défini.

Ingestion, streaming & gouvernance

Apache NiFi :
NiFi est un système de flux de données conçu pour les pipelines ETL et le traitement de données temps réel. Il permet aux utilisateurs de créer, planifier et superviser les flux de données.
Apache Kafka :
Kafka est une plateforme de streaming d’événements distribuée, conçue pour des pipelines de données à haut débit, tolérants aux pannes et à faible latence.
Apache Flink :
Flink est un moteur distribué pour le traitement de données en flux et par lots.

Outils GitOps CD

Argo CD :
Argo CD est un outil de livraison continue (CD) déclaratif pour Kubernetes, qui maintient la configuration des composants synchronisée avec l’état souhaité dans le dépôt Git.

Orchestration & Gouvernance

OpenMetadata :
OpenMetadata est une plateforme de métadonnées unifiée offrant une source de vérité unique et centralisée pour l’ensemble des métadonnées d’une organisation.

Prêt à démarrer ?

Vous pouvez explorer le site officiel d’OKDP et suivre la feuille de route. Une introduction concise ainsi qu’une vidéo de webinaire sont disponibles sur cette page : What’s New in OKDP - Open Kubernetes Data Platform (en français).

Une plateforme full stack peut être rapidement déployée via le dépôt sandbox OKDP (notez qu’une refonte complète de l’interface est en cours). Plusieurs exemples illustrant l’utilisation de la plateforme OKDP sont disponibles dans le dépôt d’exemples OKDP. Par ailleurs, les axes de contribution potentiels au projet sont répertoriés dans le dépôt des cas d’usage OKDP.

TOSIT accueille activement les contributions et l’engagement de la communauté. Si le projet vous intéresse, n’hésitez pas à nous contacter et à rejoindre la réunion hebdomadaire des utilisateurs. Les comptes-rendus des réunions sont disponibles dans le dépôt des notes de réunion.

Partagez cet article