To zależy od sprzętu serwera. Whitebox lub system Supermicro poradzą sobie z tym inaczej niż Dell, HP czy IBM ...
Jedną z wartości dodanych funkcji wysokiej klasy serwerów jest poziom integracji sprzętu / systemu operacyjnego. Ładniejsze serwery zgłaszają to, czego szukasz, jako część agentów zarządzania i / lub rozwiązania zarządzania pozapasmowego (ILO, DRAC, IPMI).
Powinieneś używać narzędzi rodzimych dla twojej platformy sprzętowej.
Fragment serwerów HP ProLiant z systemem Linux i agentami HP Management:
Trap-ID=6056
ECC Memory Correctable Errors detected.
i
Trap-ID=6052
Advanced ECC Memory Engaged
lub bardziej dotkliwy
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
lub najgorsze ... Ignorowanie błędu przez 6 dni, aż do awarii serwera z powodu złej pamięci RAM
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Zostały one zarejestrowane, wysłano pułapki SNMP i e-maile.
Zasadniczo w buforze pierścieniowym jądra zobaczysz wyjątki sprawdzania maszyny, dzięki czemu możesz sprawdzić dmesg
lub uruchomić mcelog . W moich doświadczeniach ze sprzętem Supermicro bez IPMI nie złapałem wszystkiego, a mimo to błędy RAM prześlizgnęły się przez pęknięcia i spowodowały awarie. Niestety doprowadziło to do archaicznych zasad wypalania pamięci RAM przed wdrożeniem systemu.