Najpierw muszę zapytać: „wyłączenia”? Czy masz na myśli to, że maszyna uruchomi się ponownie, czy faktycznie się zatrzymuje? Jeśli się zatrzyma, jest albo źle skonfigurowany (być może w BIOS-ie), albo coś aktywnie wyłącza maszynę (np. Init 0).
Jeśli nie, twoim głównym kandydatem będzie / var / log / syslog i /var/log/kern.log, ponieważ twój problem brzmi jak panika jądra lub błąd sprzętowy wywołany przez oprogramowanie. Oczywiście, jeśli serwer uruchamia jakąś usługę (np. Apache), może dać ci wskazówkę.
Często w takich sytuacjach generowane są wpisy dziennika, ale ponieważ urządzenie ma problemy, nie będzie w stanie zapisać wpisów na dysku. Jeśli skrzynka jest kolokowana, istnieje prawdopodobieństwo, że jest ona podłączona do konsoli szeregowej przez partnera colo. Właśnie tam bym szukał, gdybym nie znalazł niczego podejrzanego w powyższych logach.
Jeśli maszyna nie jest podłączona do konsoli szeregowej i w dzienniku nie ma nic, możesz rozważyć wysłanie syslog do innego urządzenia przez sieć. Być może interfejs sieciowy przetrwa nieco dłużej, a komunikaty dziennika można odczytać na serwerze syslog. Spójrz na rsyslog lub syslog-ng.
AKTUALIZACJA:
Zgadzam się z @Johann poniżej. Najbardziej prawdopodobną przyczyną zatrzymania jest kontrola temperatury procesora. Spróbuj sprawdzić / wykreślić temperaturę w skrzynce za pomocą czujników lub smartctl (zazwyczaj najłatwiejszych). Uważam, że kolekcjonowanie nie ma sobie równych w śledzeniu dużej liczby zmiennych w czasie. Może obsługiwać zarówno czujniki IPMI, jak i lm oraz hddtemp. Ponadto niektóre BIOS: es rejestrują zdarzenia zatrzymania temperatury.