Gouvernance des données

La gouvernance représente un ensemble de procédures garantissant que les données importantes sont formellement gérées au travers de l’entreprise.

Elle garantit la confiance dans les données et la responsabilité des utilisateurs en cas d’impact lié à la mauvaise qualité des données. Elle prend toute son importance dans une plateforme Big Data dont la vocation est de faire coexister sur une même plateforme plusieurs sources de données, plusieurs traitements et plusieurs utilisateurs.

Governance foundation
Organisation, responsabilités

Organisation, responsabilités

Une organisation juste de l’humain facilite la communication et la compréhension entre équipes, cible la promotion d’une culture agile de la donnée et instaure de nouvelles responsabilités (Chief Data Officer, Data Council, Data Steward,…) en imposant un seul point de responsabilité.

Autorisation, ACL

Autorisation/ACL

Chacun des composants du cluster possède par nature ses propres mécanismes de contrôle d’accès. Des permissions fines appliquées à un système de fichier ne se gère pas commes celles d'une base de données relationnelle. Ces règles peuvent se baser sur des rôles (RBAC), sur des tags ou encore sur la géolocalisation d'adresse IP.

Identité, authentification

Identité, authentification

La gestion des identités inclut les données utilisateurs et leur existence, leurs appartenance à des groupes et des règles de gestion qui leurs sont appliquées. Elle s’appuie sur le référentiel de l’entreprise et l’intégration de la plateforme cible avec le serveur LDAP ou l’Active Directory de l’entreprise.

Nommage

Nommage

Il appartient au client de définir un ensemble de règles de nommage pour assurer l’intégrité et la cohérence du système. L’objectif est d’assurer les utilisateurs business ou techniques de la compréhension des noms tout en préservant les mêmes conventions, structures et termes. Les critères d’attribution sont : avoir du sens, être compréhensible sans explication externe, refléter l’utilisation des ressources qu’il adresse, se différencier des autres noms autant que possible, maximiser l’utilisation de nom complet dans la mesure du possible, utiliser les mêmes abréviations, employer le singulier.

Metadonnées, Data Lineage

Metadonnées, Data Lineage

L’utilisation d’information additionnelles comme les tags permet de suivre la donnée tout au long de son cycle de vie: alimentation, qualification, enrichissement, exposition. Cette traçabilité témoigne d’où vient la donnée, par où est-elle passée, quelles sont les personnes/applications qui y ont eu accès et comment a-t-elle été altérée. La remontée de métadonnées systématique permet de classifier les données, centraliser la capture des comportements utilisateur et applicatifs, suivre et fouiller les actions appliquées à la donnée, s’assurer de la conformité des usages vis à vis des politiques de sécurité en place.

Qualité de la donnée

Qualité de la donnée

Les équipes métiers sont responsables de qualifier la donnée. Des interlocuteurs uniques doivent être en mesure de rendre des comptes et d’endosser d’éventuelles responsabilités. Il est important de constituer une chaine de devoirs lisible par tous dans laquelle les responsabilités ne sont pas partagées. Les équipes pourront s’appuyer sur les mécanismes d’outils existant pour valider le format et l’application d’un schéma à chaque enregistrement. De plus, les outils sélectionnés doivent décrire les qualité attendues et prévenir de la corruption des données tant au repos qu’en transit.

Allocation des ressources

Allocation des ressources

Dans une architecture multi-tenant, l'orchestrateur porte la responsabilité de garantir la disponibilité des ressources allouées à certains utilisateurs ou groupes d’utilisateurs. YARN et Kubernetes peuvent ainsi restreinte la disponiblité de ressource mémoire et CPU d'une application. L’exécution de processus est conditionnée à l’appartenance de l’utilisateur à certaines espaces bénéficiant d’un accès plus ou moins restreint aux ressources du serveur. Il garantit la disponibilité des ressources allouées à chaque utilisateur.

Cycle de vie de la donnée

Cycle de vie de la donnée

Appelée Information Lifecycle Management (ILM) en anglais, la gestion du cycle de vie de la donnée peut se gérer tout au long de la chaîne d’alimentation et de traitement. Son rôle est de planifier l’alimentation et les traitements entre un et plusieurs espaces, de stocker et d’archiver la donnée ainsi que de garantir et de préserver les durées de rétention.

Articles associés à la gouvernance des données

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.