Site Reliability Engineering (SRE)

Le SRE est un ensemble de pratiques issue de l'expérience de Google à taiter l'exploitation comme un logiciel. L'engagement envers l'ensemble du cycle de vie des services permet aux organisations de construire, déployer, surveiller et maintenir les systèmes logiciels avec succès. Le SRE est composé d'éléments techniques et culturels qui tous partagent l'objectif commun de respecter les objectifs de stabilité.

Les 5 principes de base de la philosophie DevOps et leur mise en œuvre via le SRE sont :

Briser les silos organisationnels

Les grandes entreprises ont une structure organisationnelle complexe

avec une multitude d'équipes travaillant souvent séparément en "silos".

Chaque équipe a une vision différente de l'ensemble, ce qui encourage

l'inefficacité. La tâche des DevOps et des SRE est de mieux aligner les

équipes les unes sur les autres vers les objectifs généraux et vers une

vision commune. 2. Accepter les échecs dans le cycle de vie des produits

Les indicateurs de niveau de service (SLI) et les objectifs de niveau

de service (SLO) permettent d'évaluer les défaillances. Les SLI

mesurent les défaillances dans le temps. Un SLO est un accord de

niveau de service concernant une métrique spécifique, telle que la

disponibilité ou le temps de réponse, qui doit être respectée. Chaque

défaillance conduit à réévaluer et à optimiser les objectifs. Les SRE

disposent d'un budget de risque pour tester les limites et des changes

plus radicaux pour potentiellement innover plus rapidement.Le SRE

quantifie ce risque acceptable comme un "budget d'erreur". 3. Mettre en œuvre les changements par petites étapes rapides

Comme DevOps, SRE encourage l'amélioration continue par des étapes de

développement petites et fréquentes. 4. Utiliser des outils standards et l'automatisation

Les problèmes d'incompatibilité et d'intégration entre les technologies

créent des silos, même dans un environnement DevOps. SRE introduit des

technologies communes et un accès croisé aux informations dans les

différentes équipes informatiques. La politique de SRE est

d'automatiser les tâches manuelles qui sont répétitives, réactives et

ne produisent aucune amélioration durable. L'automatisation devrait

libérer des capacités pour un travail qui apporte des avantages à long

terme. 5. Fonder la fiabilité sur les données de mesure

les différents protagonistes doivent convenir d'une manière commune

pour mesurer la fiabilité et de ce qu'il faut faire lorsque la valeur

n'est pas conforme aux spécifications. Les métriques clés DevOps sont

le nombre de déploiements dans le temps, le délai entre l'engagement et

la publication, le nombre de déploiements ayant échoué et le temps de

récupération requis.

En savoir plus: Site officiel Google

Articles associés

Collecte de logs Databricks vers Azure Monitor à l'échelle d'un workspace

Catégories : Cloud computing, Data Engineering, Adaltas Summit 2021 | Tags : Métriques, Supervision, Spark, Azure, Databricks, Log4j

Databricks est une plateforme optimisée d’analyse de données, basée sur Apache Spark. La surveillance de la plateforme Databricks est cruciale pour garantir la qualité des données, les performances du…

Par PLAYE Claire

10 mai 2022