Gouvernance des données

La gouvernance représente un ensemble de procédures garantissant que les données importantes sont formellement gérées au travers de l’entreprise.

Elle garantit la confiance dans les données et la responsabilité des utilisateurs en cas d’impact lié à la mauvaise qualité des données. Elle prend toute son importance dans une plateforme Big Data dont la vocation est de faire coexister sur une même plateforme plusieurs sources de données, plusieurs traitements et plusieurs utilisateurs.

Governance foundation
Organisation, responsabilités

Organisation, responsabilités

Une organisation juste de l’humain facilite la communication et la compréhension entre équipes, cible la promotion d’une culture agile de la donnée et instaure de nouvelles responsabilités (Chief Data Officer, Data Council, Data Steward,…) en imposant un seul point de responsabilité.

Autorisation, ACL

Autorisation/ACL

Chacun des composants du cluster possède par nature ses propres mécanismes de contrôle d’accès. Des permissions fines appliquées à un système de fichier ne se gère pas commes celles d'une base de données relationnelle. Ces règles peuvent se baser sur des rôles (RBAC), sur des tags ou encore sur la géolocalisation d'adresse IP.

Identité, authentification

Identité, authentification

La gestion des identités inclut les données utilisateurs et leur existence, leurs appartenance à des groupes et des règles de gestion qui leurs sont appliquées. Elle s’appuie sur le référentiel de l’entreprise et l’intégration de la plateforme cible avec le serveur LDAP ou l’Active Directory de l’entreprise.

Nommage

Nommage

Il appartient au client de définir un ensemble de règles de nommage pour assurer l’intégrité et la cohérence du système. L’objectif est d’assurer les utilisateurs business ou techniques de la compréhension des noms tout en préservant les mêmes conventions, structures et termes. Les critères d’attribution sont : avoir du sens, être compréhensible sans explication externe, refléter l’utilisation des ressources qu’il adresse, se différencier des autres noms autant que possible, maximiser l’utilisation de nom complet dans la mesure du possible, utiliser les mêmes abréviations, employer le singulier.

Metadonnées, Data Lineage

Metadonnées, Data Lineage

L’utilisation d’information additionnelles comme les tags permet de suivre la donnée tout au long de son cycle de vie: alimentation, qualification, enrichissement, exposition. Cette traçabilité témoigne d’où vient la donnée, par où est-elle passée, quelles sont les personnes/applications qui y ont eu accès et comment a-t-elle été altérée. La remontée de métadonnées systématique permet de classifier les données, centraliser la capture des comportements utilisateur et applicatifs, suivre et fouiller les actions appliquées à la donnée, s’assurer de la conformité des usages vis à vis des politiques de sécurité en place.

Qualité de la donnée

Qualité de la donnée

Les équipes métiers sont responsables de qualifier la donnée. Des interlocuteurs uniques doivent être en mesure de rendre des comptes et d’endosser d’éventuelles responsabilités. Il est important de constituer une chaine de devoirs lisible par tous dans laquelle les responsabilités ne sont pas partagées. Les équipes pourront s’appuyer sur les mécanismes d’outils existant pour valider le format et l’application d’un schéma à chaque enregistrement. De plus, les outils sélectionnés doivent décrire les qualité attendues et prévenir de la corruption des données tant au repos qu’en transit.

Allocation des ressources

Allocation des ressources

Dans une architecture multi-tenant, l'orchestrateur porte la responsabilité de garantir la disponibilité des ressources allouées à certains utilisateurs ou groupes d’utilisateurs. YARN et Kubernetes peuvent ainsi restreinte la disponiblité de ressource mémoire et CPU d'une application. L’exécution de processus est conditionnée à l’appartenance de l’utilisateur à certaines espaces bénéficiant d’un accès plus ou moins restreint aux ressources du serveur. Il garantit la disponibilité des ressources allouées à chaque utilisateur.

Cycle de vie de la donnée

Cycle de vie de la donnée

Appelée Information Lifecycle Management (ILM) en anglais, la gestion du cycle de vie de la donnée peut se gérer tout au long de la chaîne d’alimentation et de traitement. Son rôle est de planifier l’alimentation et les traitements entre un et plusieurs espaces, de stocker et d’archiver la donnée ainsi que de garantir et de préserver les durées de rétention.

Articles associés à la gouvernance des données

Sécurisation des services avec Open Policy Agent

Catégories : Cybersécurité, Gouvernance des données | Tags : Kafka, Ranger, Autorisation, REST, Cloud, Kubernetes, SSL/TLS

Open Policy Agent est un un moteur de règles multifonction. L’objectif principal du projet est de centraliser l’application de règles de sécurité à travers la stack cloud native. Le projet a été crée…

SCHOUKROUN Leo

By SCHOUKROUN Leo

22 janv. 2020

Innovation, culture projet vs culture produit en Data Science

Catégories : Data Science, Gouvernance des données | Tags : DevOps, Agile, Scrum

La Data Science porte en elle le métier de demain. Elle est étroitement liée à la compréhension du métier, des comportements et de l’intelligence qu’on tirera des données existantes. Les enjeux sont à…

WORMS David

By WORMS David

8 oct. 2019

Utilisateurs et autorisations RBAC dans Kubernetes

Catégories : Orchestration de conteneurs, Gouvernance des données | Tags : Authentification, Autorisation, Cybersécurité, RBAC, Kubernetes, SSL/TLS

Le déploiement d’un cluster Kubernetes n’est que le début de votre parcours et vous devez maintenant l’exploiter. Pour sécuriser son accès, les identités des utilisateurs doivent être déclarées avec…

SOARES Robert Walid

By SOARES Robert Walid

7 août 2019

Les identités auto-souveraines

Catégories : Gouvernance des données | Tags : Authentification, Blockchain, Livre de compte (ledger), Cloud, IAM

Vers une identité numérique fiable, personnelle, persistante et portable pour tous. Problèmes d’identité numérique Les identités auto-souveraines sont une tentative de redéfinir le notion d’identité…

MELLAL Nabil

By MELLAL Nabil

22 janv. 2019

Gestion des identités utilisateurs sur clusters Big Data

Catégories : Cybersécurité, Gouvernance des données | Tags : Ansible, FreeIPA, Kerberos, LDAP, Active Directory, IAM

La sécurisation d’un cluster Big Data implique l’intégration ou le déploiement de services spécifiques pour stocker les utilisateurs. Certains utilisateurs sont spécifiques à un cluster lorsque d…

WORMS David

By WORMS David

8 nov. 2018

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.