Qu'est-ce qu'une autopsie d'incident ?

UN autopsie (ou post-mortem) est un processus visant à tirer des leçons des incidents passés. Il implique généralement une analyse ou une discussion peu après l'événement.

Les post-mortems impliquent généralement une analyse et une discussion sans reproches peu après un incident ou un événement. Un artefact est produit, comprenant une description détaillée des causes de l'incident, ainsi qu'une liste des mesures à prendre pour éviter qu'un incident similaire ne se reproduise. Une analyse du fonctionnement de votre processus de réponse aux incidents pendant l'incident doit également être incluse dans la discussion. La valeur des autopsies réside dans leur contribution à l’institutionnalisation d’une culture d’amélioration continue. De cette façon, les équipes sont mieux préparées lorsqu’un autre incident survient inévitablement avec des systèmes critiques pour la mission ou l’entreprise.

À mesure que vos systèmes évoluent et deviennent plus complexes, les pannes sont inévitables, l'évaluation et la correction sont plus complexes et chronophages, et la répétition d'erreurs devient de plus en plus douloureuse. Ne pas disposer des données quand on en a besoin coûte cher.

Simplifier le processus de post-mortem est essentiel pour aider votre équipe à optimiser son investissement en temps : consacrer moins de temps à la réalisation du post-mortem tout en en tirant des enseignements plus pertinents permet d'atteindre plus rapidement une maturité opérationnelle accrue. En réalité, la véritable valeur des post-mortems réside dans leur contribution à l'institutionnalisation d'une culture positive d'amélioration fréquente et itérative.

Pourquoi faire des autopsies ?

Pendant réponse aux incidents L'équipe se concentre à 100 % sur la restauration du service. Elle ne doit pas perdre son temps et son énergie à réfléchir à la meilleure solution ni à analyser en profondeur la cause de l'incident. Cela pourrait retarder davantage les efforts de remédiation et compliquer le processus de résolution. C'est pourquoi les analyses rétrospectives sont essentielles : elles offrent un moment de réflexion serein une fois le problème résolu. Le processus post-mortem permet de se concentrer, d’instaurer une culture d’apprentissage et d’identifier les opportunités d’amélioration qui, autrement, seraient perdues.

Sans post-mortem, vous ne parvenez pas à identifier vos points forts, vos points faibles et, surtout, à éviter de reproduire les mêmes erreurs. Rédiger un post-mortem efficace vous permet d'apprendre rapidement de vos erreurs et d'améliorer vos systèmes et processus. Un post-mortem bien conçu et irréprochable permet aux équipes d'apprendre en continu, améliorant ainsi de manière itérative votre infrastructure et votre processus de réponse aux incidents. Assurez-vous de rédiger des post-mortem détaillés et précis afin d'en tirer le meilleur parti.

Les organisations peuvent faire référence au processus post-mortem de manières légèrement différentes :

  • Revue d'apprentissage
  • Revue après action
  • Examen des incidents
  • Rapport d'incident
  • Examen post-incident
  • Analyse des causes profondes (ou RCA)

Simplifier le processus post-mortem

Les spécificités des analyses post-mortem varient d'une organisation à l'autre. Quel que soit le processus, l'objectif principal des analyses post-mortem doit être l'apprentissage, qu'il s'agisse des systèmes gérés, du processus suivi ou de la manière dont l'organisation gère une crise. D'autres objectifs, comme l'identification et la mise en œuvre d'améliorations de systèmes ou de processus, peuvent être atteints selon le processus suivi.

En général, un rapport d'autopsie efficace raconte une histoire. Les rapports d'autopsie d'incident doivent inclure les éléments suivants :

  • Un résumé de haut niveau de ce qui s'est passé
    Quels services et clients ont été touchés ? Quelle a été la durée et la gravité du problème ? Qui a participé à la réponse ? Comment avons-nous finalement résolu le problème ?
  • Une analyse des causes profondes
    Quelles sont les origines de cet échec ? Pourquoi, selon nous, est-ce arrivé ?
  • Mesures prises pour diagnostiquer, évaluer et résoudre
    Quelles mesures ont été prises ? Lesquelles ont été efficaces ? Lesquelles ont été préjudiciables ?
  • Une chronologie des activités importantes
    Centralisez les activités clés des conversations par chat, des détails des incidents et bien plus encore.
  • Enseignements et prochaines étapes
    Qu'est-ce qui s'est bien passé ? Qu'est-ce qui ne s'est pas bien passé ? Comment éviter que ce problème ne se reproduise ?

L'autopsie sans reproche

UN autopsie irréprochable Il est essentiel de comprendre les échecs en essayant de comprendre comment une erreur a été commise, plutôt que de chercher qui l'a commise. « On ignore le fait que cette personne a fait cela », explique Arup Chakrabarti, responsable de l'ingénierie PagerDuty . « Ce qui compte le plus, c'est l'impact client, et c'est sur lui qu'on se concentre. » Cet outil crucial est utilisé par de nombreuses organisations de premier plan, comme Etsy, pionnière en matière de autopsies irréprochables , pour garantir que les autopsies aient le ton juste, permettant aux ingénieurs de donner des comptes rendus véritablement objectifs de ce qui s'est passé en éliminant la peur de la punition.

Certains avancent l'argument selon lequel l'autopsie sans reproche cela peut ne pas sembler possible Parce que les humains sont programmés pour blâmer. Ils prônent des analyses rétrospectives « conscientes des reproches », dans lesquelles les équipes reconnaissent leur instinct de blâme, mais concentrent leur attention sur des points concrets à retenir.

Quelle que soit la terminologie qui résonne avec votre équipe, l’essentiel est que les discussions post-mortem doivent être des espaces sûrs dans lesquels les équipes peuvent être complètement honnêtes et orientées vers l’amélioration de l’avenir au lieu de blâmer les autres pour le passé.

Quand faites-vous une autopsie ?

Les équipes doivent effectuer un post-mortem après chaque incident majeur (de gravité 2 ou 1). Cela inclut chaque fois qu'une intervention est déclenchée, même s'il s'avère ultérieurement que la gravité était en réalité plus faible, qu'il s'agissait d'une fausse alerte ou que la situation s'est rétablie rapidement sans intervention. Un post-mortem ne doit pas être négligé dans ces cas-là, car il permet d'analyser les points positifs et négatifs du processus d'intervention. Si l'incident n'aurait pas dû déclencher d'intervention, il est utile de comprendre pourquoi il l'a fait afin d'optimiser la surveillance et d'éviter de déclencher inutilement une intervention à l'avenir. Cette analyse et ce suivi contribueront à prévenir la lassitude liée aux alertes.

Les post-mortems sont réalisés peu après la résolution de l'incident, alors que le contexte est encore frais pour tous les intervenants. Tout comme la résolution d'un incident majeur devient une priorité absolue dès sa survenue, la réalisation du post-mortem est prioritaire par rapport aux tâches planifiées. La réalisation du post-mortem constitue la dernière étape de votre processus de réponse aux incidents. Retarder le post-mortem retarde les enseignements clés qui permettront d'éviter que l'incident ne se reproduise.

Qui est responsable de l’autopsie ?

À la fin d’un appel d’incident majeur, ou très peu de temps après, le Commandant d'incident Sélectionne et informe directement un intervenant pour qu'il soit responsable de l'autopsie. Notez que le responsable de l'autopsie n'est pas seul responsable de sa réalisation. Écrire une autopsie est un effort collaboratif et doit inclure toutes les personnes impliquées dans la réponse à l'incident. Si l'ingénierie dirige l'analyse, le processus post-mortem doit impliquer la direction, le support client et les équipes de communication. Le responsable du post-mortem coordonne l'intervention avec toutes les personnes impliquées pour garantir sa réalisation dans les délais.

Il est important de désigner un responsable unique pour éviter l'effet de spectateur. Si vous demandez à tous les intervenants ou à une équipe de réaliser l'autopsie, vous risquez de supposer que quelqu'un d'autre le fait, et donc que personne ne le fasse. Lors de la sélection d'un responsable, vous pouvez choisir une personne unique répondant à l'un des critères suivants :

  • A joué un rôle de premier plan dans l'enquête sur l'incident
  • A effectué une tâche qui a conduit à la stabilisation du service
  • Était le principal intervenant de garde pour le service le plus touché
  • Déclencher manuellement l'incident pour lancer la réponse à l'incident

Réaliser un post-mortem n'est pas une sanction, et le responsable n'est pas la personne à l'origine de l'incident. Un post-mortem efficace est irréprochable. Dans les systèmes complexes, il n'y a jamais de cause unique, mais une combinaison de facteurs qui mènent à l'échec. Le responsable est simplement une personne responsable qui effectue certaines tâches administratives, assure le suivi des informations et mène le post-mortem à son terme. La rédaction du post-mortem sera finalement un travail collaboratif, mais le choix d'un responsable unique pour orchestrer cette collaboration permet de garantir sa réalisation.

Meilleures pratiques et plus encore

PageDuty propose une solution entièrement gratuite manuel d'autopsie qui partage les meilleures pratiques de l'industrie et comprend un modèle d'autopsie Utilisez-le pour formaliser votre propre processus de post-mortem et simplifier au maximum la gestion des problèmes par votre équipe. Mieux encore, les post-mortems font désormais partie de la plateforme PagerDuty ; inscrivez-vous pour en savoir plus. essai gratuit de 14 jours et rationalisez l'ensemble du processus post-mortem avec la création automatisée de chronologies, l'édition collaborative, des informations exploitables et bien plus encore.

OSZAR »