Zadam więc kolejne pytanie:
Dlaczego konieczne jest uruchomienie diagnostyki sprzętowej HP Insight na serwerach przed obsługą administracyjną?
W moim komentarzu powyżej wskazałem, że niewiele można zyskać, robiąc to zapobiegawczo w dużych środowiskach HP ProLiant. Powinienem wyjaśnić swoje przemyślenia na ten temat ...
Aby uporządkować częstotliwość malejącą, spójrzmy na typy problemów, które zwykle napotykasz:
Macierz dyskowa i dyski : kontroler RAID zgłasza systemowi operacyjnemu, logom, SNMP, e-mailowi, ILO i świeci ładnymi kontrolkami wskazującymi stan zdrowia.
RAM : proces POST wykryje stan pamięci RAM, a także system raportuje do systemu operacyjnego, dzienników, SNMP, poczty elektronicznej, ILO i zapala wskaźnik LED na wyświetlaczu System Insight Display (SID) . Ponadto nie jestem fanem procesów wypalania pamięci RAM, ponieważ wykrywanie błędów w tych systemach jest już niezawodne.
Termiczne i wentylatory : temperatura serwera i prędkość wentylatora są regulowane przez ILO. W tych systemach jest ponad 30 czujników temperatury , więc układ chłodzenia jest wyjątkowo wydajny. Nadal zgłasza się do systemu operacyjnego, dzienników, SNMP, wiadomości e-mail i identyfikatora SID.
Zasilacz : Status zasilacza jest zgłaszany do systemu operacyjnego, logów, SNMP, poczty elektronicznej i na SID, a także rzeczywistą lampkę sygnalizacyjną na rzeczywistym zasilaczu.
Ogólny stan zdrowia : Łatwo to ocenić na pierwszy rzut oka dzięki wyświetlaczowi SID, oprócz diody LED Zdrowie wewnętrzne i Zdrowie zewnętrzne. Jest to również zgłaszane do dzienników serwera, SNMP, poczty elektronicznej i MOP.
Nie mogę wymyślić żadnych warunków, które można znaleźć przed wdrożeniem, których nie można / nie można było zgłosić podczas instalacji lub po instalacji systemu operacyjnego.
Pętla diagnostyczna zwykle niczego nie znajdzie, gdy jest uruchomiona w systemie bez oczywistych wcześniejszych problemów. Wynika to głównie z tego, że serwer musi wykonać test POST i uruchomić się z oprogramowaniem narzędziowym lub oprogramowaniem wbudowanym Intelligent Provisioning, aby uruchomić narzędzie.
Innymi słowy, każdy element, który byłby poważnym „SPOF” dla serwera, prawdopodobnie uniemożliwiłby systemowi przeprowadzenie autodiagnostyki.
Najczęstsze awarie są nadal dość solidne; dyski powinny być w macierzy RAID i mogą być wymieniane podczas pracy. Wentylatory i zasilacze można również wymieniać podczas pracy. Twoja pamięć RAM ma progi ECC, a dla większości platform ProLiant dostępne są zapasowe opcje online. Nie można nic zrobić, aby spowodować awarię tych komponentów, uruchamiając diagnostykę. Dodaj fakt, że używasz obudów HP C7000 Blade, które mają wewnętrzne redundancje , a częstotliwość występowania awarii powinna być dość niska.