Pierwsze zamówienie: czy reaguje?
Jeśli nie możesz się zalogować, pojawiają się większe problemy. Zwykle występuje w dwóch wariantach: awaria sprzętu i awaria oprogramowania. Oba są potencjalnie katastrofalne. Aby zapobiec błędom DFA, sprawdź najpierw ogólny stan sprzętu - zwykle wystarczy zwykłe podsumowanie.
Drugie zamówienie: czy podstawowe struktury systemu są w dobrym zdrowiu i porządku?
Sprawdź „złotą triadę” systemów:
- Wystarczająca ilość czasu procesora jest bezpłatna do przetworzenia
- Wystarczająca ilość miejsca na dysku jest bezpłatna do przechowywania
- Wystarczająca ilość pamięci jest wolna dla obciążeń
W ciągu ostatnich kilku dekad triada rozwinęła się w „quad”, który obejmuje komunikację (sieci):
- Łączność jest funkcjonalna, responsywna i ma pojemność
Trzecie zamówienie: jaka jest ważność problemu?
Na jakie programy lub usługi ma to wpływ? Czy w malejącym porządku ważności jest systemowy (ogólnosystemowy), klastrowany (grupa programów), czy izolowany (konkretny program)? Klastry programów zwykle się wyłączają, ponieważ określona usługa bazowa uległa awarii lub przestała odpowiadać. Problemy systemowe są czasem z tym związane (np. Konflikty DNS lub IP), ale kluczem jest zazwyczaj wiedza, gdzie szukać.
Czwarte zamówienie: czy narzędzia diagnostyczne dostarczające użytecznych danych są istotne dla problemu?
Teraz, gdy masz już informacje o kondycji systemu (drugie zamówienie) oraz o tym, w jakich częściach występują problemy (trzecie zamówienie), powinno to ułatwić zawężenie zakresu problemu.
Komunikaty o błędach lub pliki dziennika powinny być wspólnym punktem na tej drodze.
Problemy z procesorem:
Problemy z miejscem na dysku / IO:
Problemy z pamięcią:
Problemy z łącznością:
- świst
- trasa (i arp i rarp i przyjaciele)
- iptables, ipchains, ipfw (dla tych ludzi z BSD)
- traceroute lub mtr
- hosts, nslookup lub dig
- netstat
Najczęstsza skarga (którą słyszę):
Wiadomość e-mail nie jest dostarczana wystarczająco szybko (ponad minutę od wysłania do otrzymania przez odbiorcę) lub wiadomość e-mail odrzuca moją próbę wysłania. Zwykle sprowadza się to do ograniczenia prędkości w Postfix podczas burzy spamowej, co wpływa na możliwość akceptowania dostarczania wewnętrznego.
Przykład z życia:
Jednak nie zawsze tak jest. Pewnego razu problem nadal występował bez względu na ponowne uruchomienie usługi; więc po 3 minutach nadszedł czas, aby zacząć się rozglądać. Procesor był zajęty, ale poniżej 100%, ale obciążenie wzrosło do 15 na pudełku z zaledwie 2 rdzeniami i groziło, że pójdzie wyżej. Górne polecenie ujawniło, że system pocztowy był przesterowany wraz ze skanerem poczty, ale nie było żadnych procesów potomnych amavis. To była wskazówka - polecenie kolejki pocztowej (mailq) wyświetlało ponad 150 niedostarczonych wiadomości, z których ponad 80% stanowiło spam, w ciągu ostatnich 20 minut. Szybka korekta w celu obniżenia limitu prędkości (co zmniejszyło wskaźnik wczytywania burzy spamowej) przy jednoczesnym zwiększeniu liczby procesów skanera podrzędnego poczty e-mail (w celu przetworzenia zaległości), a następnie ponowne uruchomienie usługi, rozwiązało problem i system był w stanie aby zrealizować dostawy w krótkim czasie.
Przyczyną tego problemu było to, że proces nadrzędny amavis zachwiał się, a procesy potomne w końcu wszystkie przebiegły (samoczynnie kończą się po tylu skanach, aby zapobiec wyciekom pamięci). Były więc procesy SMTP w postfiksie próbujące nawiązać kontakt… cienkie powietrze… w celu wykonania potrzebnego skanowania spamu / wirusów. Distro, którego używałem, zawierało nieaktualne pakiety, które nigdy nie będą aktualizowane; ponieważ instalacja miała zostać wymieniona za około rok, ręcznie „zastąpiłem” instalację do najnowszej wersji, która zawierała kilka poprawek błędów. Od tamtej pory nie miałem tego samego problemu.