W ubiegłym tygodniu mieliśmy dość poważną awarię, która wpłynęła na szereg usług, które wykluczają nas z umowy SLA z klientami. Teraz, gdy wszystko zostało rozwiązane, przeprowadzam sekcję zwłok.
Na podstawie tej recenzji chciałbym opracować wewnętrzny dokument opisujący awarię, jej skutki, naszą reakcję i rezolucję. Chcę wymyślić dość standardowy formularz do ponownego użycia w przyszłości. Poniżej zamieściłem swoje przemyślenia, ale jakie inne elementy powinny zostać uwzględnione? Gdyby to był incydent związany z bezpieczeństwem, co byś dodał?
- Podsumowanie Podsumowanie wydarzenia na poziomie wykonawczym.
- Usługi, których dotyczy problem
- Wpływ Jaki był wpływ na naszych użytkowników i umowy SLA? Czy był koszt w dolarach, nieodebrane transakcje, utraceni klienci itp.?
- Czas trwania awarii Dla każdej usługi, której dotyczy problem, jeśli wystąpiły odchylenia
- Przyczyna W tym pierwotne i wtórne przyczyny
- Rozkład
- Oś czasu zdarzeń Powiadomienia, kontakt z zewnętrznymi dostawcami, powiadomienia klientów, odpowiedzi itp.
- Problemy z naszą odpowiedzią Czy nasza reakcja na awarię nie poszła zgodnie z planem? Odpowiednie osoby powiadomione? Czy sprzedawcy wywiązali się z zaciągniętych zobowiązań?
- Środki zapobiegawcze, jakie należy podjąć W jaki sposób zapobiegamy ponownemu wystąpieniu awarii lub zmniejszamy jej wpływ?
- Metoda wykrywania Jak dobrze wykryliśmy tę awarię i jak poprawimy wykrywanie w przyszłości?
- Zmiany, które należy wprowadzić w przyszłych reakcjach na awarie
Spróbuj ograniczyć liczbę postów do jednego elementu i wyjaśnienia, a ten post może być aktualizowany przy użyciu najczęściej głosowanych odpowiedzi.