Data Gouvernance

Data Gouvernance 2018-03-29T15:56:41+00:00

Elle représente un ensemble de procédures garantissant que les données importantes sont formellement gérées au travers de l’entreprise.

Elle garantit la confiance dans les données et la responsabilité des utilisateurs en cas d’impact lié à la mauvaise qualité des données. Elle prend toute son importance dans une plateforme Big Data dont la vocation est de faire coexister sur une même plateforme plusieurs sources de données, plusieurs traitements et plusieurs utilisateurs.

Organisation et responsibilités

Une organisation juste de l’humain facilite la communication et la compréhension entre équipes, cible la promotion d’une culture agile de la donnée et instaure de nouvelles responsabilités (Data Council, Data Steward,…) en imposant un seul point de responsabilité.

Nommage

Il appartient au client de définir un ensemble de règles de nommage pour assurer l’intégrité et la cohérence du système. L’objectif est d’assurer les utilisateurs business ou techniques de la compréhension des noms tout au préservant les mêmes conventions, structures et termes. Les critères d’attribution sont : avoir du sens, être compréhensible sans explication externe, reflété l’utilisation des ressources qu’il adresse, se différencier des autres noms autant que possible, maximiser l’utilisation de nom complet dans la mesure du possible, utiliser les mêmes abréviations, employer le singulier.

Autorisation/ACL

Chacun des composants du cluster possède par nature ses propres mécanismes de contrôle d’accès. Le rôle d’Apache Ranger et d’Apache Sentry est la centralisation sur une même interface de la gestion de chacun de ces outils. Leurs consoles d’administration permettent de poser des règles de permissions fines sur les ressources du cluster : fichiers et répertoires dans HDFS ; base de données, tables et colonnes dans Hive ; files de messages dans Kafka. Parmi les composants supportés, citons HDFS, Yarn, Hive, HBase, Knox, Storm, SOLR et Kafka. Dans le cadre d’une offre de service mutualisée, Apache Ranger permet de déléguer l’administration de certaines données à certains propriétaires de groupes, offrant du contrôle et de la flexibilité aux équipes métiers en capacité d’appliquer les règles de bonne gouvernance.

Allocation des ressources

Dans une architecture multi-tenant, YARN porte la responsabilité de garantir la disponibilité des ressources allouées à certains utilisateurs ou groupes d’utilisateurs. Les ressources gérées par YARN sont la mémoire et les CPUs. Récemment, les dernières évolutions de YARN font état de la gestion du réseau et des disques. L’exécution de processus est conditionnée à l’appartenance de l’utilisateur à certaines files d’exécution bénéficiant d’un accès plus ou moins restreint aux ressources du serveur. YARN garanti la disponibilité des ressources allouées à chaque utilisateur.

Metadata, Data Lineage

L’utilisation de tags permet de suivre la donnée tout au long de son cycle de vie: alimentation, qualification, enrichissement, exposition. Cette traçabilité témoigne d’où vient la donnée, par où est-elle passée, quels sont les personnes/applications qui y ont eu accès et comment a-t-elle été altérée. La remontée de métadonnées systématique permet de classifier les données, centraliser la capture des comportement utilisateur et applicatifs, suivre et fouiller les actions appliquées à la donnée, s’assurer de conformité des usages vis à vis des politiques de sécurité en place. Ces fonctionnalités sont nativement supportés par des composants comme HDFS, Hive, Sqoop, Falcon et Storm et de nouveaux composants s’interfacent régulièrement. De plus, il est possible d’interfacer ses propres processus par un API REST.

Authentification/Identité

L’intégration de Kerberos dans Hadoop garanti l’identité de tous les accès internes et externes au cluster. L’intégration avec le serveur LDAP ou l’Active Directory de l’entreprise facilite la gestion des utilisateurs, de leur appartenance à des groupes et des règles de gestion qui leurs sont appliquées.

Qualité de la donnée

Les équipes métiers sont responsables de qualifier la donnée. Des interlocuteurs uniques doivent être en mesure de rendre des comptes et d’endosser d’éventuelles responsabilités. Il est important de constituer une chaine de devoirs lisible par tous dans laquelle les responsabilités ne sont pas partagées. Les équipes pourront s’appuyer sur les mécanismes d’outils existant pour valider le format et l’application d’un schéma à chaque enregistrement. De plus, les outils sélectionnés doivent prévenir de la corruption des données tant au repos qu’en transit. Par exemple, HDFS utilise des signatures pour garantir la non altération des données stockée, Kafka fourni des garanties sur l’ordonnancement et la délivrance de message configurables en fonction de la nature des données et des performances attendues.

Cycle de vie de la donnée

Appelé Information Lifecycle Management (ILM) en anglais, la gestion du cycle de vie de la donnée peut se gérer tout au long de la chaine d’alimentation et de traitement. Son rôle est de planifier l’alimentation et les traitements entre un et plusieurs clusters, de stocker et archiver la donnée ainsi que de garantir et préserver les durées de rétention. Ce rôle est adressé par l’outil Apache Falcon.

Governance roles

Compliance officer

Suit, comprend et protége l’accès aux données sensibles.

Suis-je préparé à un audit ?
Qui accède à quelles données ?
Que font-ils avec les données ?
Les données sensibles sont-elles gouvernées et protégées ?

Data Steward & Curator

Gére et organise les données à l’échelle Hadoop.

Comment gérer efficacement le cycle de vie des données, de l’ingestion à la purge?
Comment puis-je classer les données efficacement?
Comment mettre les données à la disposition de mes utilisateurs finaux efficacement?
Les données sensibles sont-elles gouvernées et protégées?

Data Scientists & BI Users

Trouve sans effort et fait confiance aux données qui comptent le plus.

Comment puis-je explorer les données par moi-même?
Puis-je faire confiance à ce que je trouve?
Comment puis-je utiliser ce que je trouve?
Comment puis-je trouver et utiliser des ensembles de données connexes?

Hadoop Admin & DBAs

Augmente la productivité des utilisateurs et les performances du cluster.

Comment les données sont-elles utilisées aujourd’hui?
Comment puis-je optimiser pour les futures charges de travail?
Comment puis-je profiter rapidement de Hadoop sans risque?

Une communication efficace est la clé du succès.

Les idées viennent de nombreux endroits. Assurez-vous que votre équipe parle avec le reste de l’organisation.

Les énergies impliquées doivent équilibrer l’excellence méthodologique et technique avec la praticabilité et la facilité d’utilisation.

Les projets sélectionnés doivent tirer parti de la sagesse collective grâce aux discussions et à la prise de décision.