Zautomatyzowane testowanie sprzętu serwerów HP?

W ramach udostępniania serwerów uruchamiamy narzędzie HP Insight Diagnostics w celu przetestowania sprzętu. Jest to proces ręczny. Czy istnieje sposób automatyzacji uruchamiania Insight Diagnostics?

Istnieje oprogramowanie hpdiags z opcją „-rd:” „Uruchom diagnostykę wszystkich urządzeń diagnostycznych”. Z moich testów nie robi to wiele (po prostu odczytuje informacje SMART z dysków). Czy ktoś miał z tym więcej szczęścia?

Sprzęt: BladeCenter c7000 z ostrzami HP ProLiant BL460c, DL360.

System operacyjny: ESXi i Ubuntu.

hardware hp hp-proliant automated-testing

— Mark Wagner
źródło

Krótka odpowiedź brzmi: nie kłopoczę się tym w dużych środowiskach. Wystarczy monitorowanie i diagnostyka pokładowa. Ale czy możesz podać informacje na temat używanych modeli serwerów? A może zaangażowane systemy operacyjne.

— ewwhite

Zaktualizowałem bilet o wymagane informacje.

— Mark Wagner,

Czy instalujesz wersje ESXi specyficzne dla HP? Czy instalujesz oprogramowanie HP Management Agent w systemach Ubuntu? Które pokolenia są serwerami? G6? G7? Gen8?

— ewwhite

Agenty zarządzania HP są instalowane zarówno w ESXi, jak i Ubuntu. Serwery to Gen8 i będą to Gen9.

— Mark Wagner

I updated the ticket with the requested info- Rozśmieszyło mnie to. To nie jest dział pomocy technicznej.

— joeqwerty

Zadam więc kolejne pytanie:

Dlaczego konieczne jest uruchomienie diagnostyki sprzętowej HP Insight na serwerach przed obsługą administracyjną?

W moim komentarzu powyżej wskazałem, że niewiele można zyskać, robiąc to zapobiegawczo w dużych środowiskach HP ProLiant. Powinienem wyjaśnić swoje przemyślenia na ten temat ...

Aby uporządkować częstotliwość malejącą, spójrzmy na typy problemów, które zwykle napotykasz:

Macierz dyskowa i dyski : kontroler RAID zgłasza systemowi operacyjnemu, logom, SNMP, e-mailowi, ILO i świeci ładnymi kontrolkami wskazującymi stan zdrowia.
RAM : proces POST wykryje stan pamięci RAM, a także system raportuje do systemu operacyjnego, dzienników, SNMP, poczty elektronicznej, ILO i zapala wskaźnik LED na wyświetlaczu System Insight Display (SID) . Ponadto nie jestem fanem procesów wypalania pamięci RAM, ponieważ wykrywanie błędów w tych systemach jest już niezawodne.
Termiczne i wentylatory : temperatura serwera i prędkość wentylatora są regulowane przez ILO. W tych systemach jest ponad 30 czujników temperatury , więc układ chłodzenia jest wyjątkowo wydajny. Nadal zgłasza się do systemu operacyjnego, dzienników, SNMP, wiadomości e-mail i identyfikatora SID.
Zasilacz : Status zasilacza jest zgłaszany do systemu operacyjnego, logów, SNMP, poczty elektronicznej i na SID, a także rzeczywistą lampkę sygnalizacyjną na rzeczywistym zasilaczu.
Ogólny stan zdrowia : Łatwo to ocenić na pierwszy rzut oka dzięki wyświetlaczowi SID, oprócz diody LED Zdrowie wewnętrzne i Zdrowie zewnętrzne. Jest to również zgłaszane do dzienników serwera, SNMP, poczty elektronicznej i MOP.

wprowadź opis zdjęcia tutaj

Nie mogę wymyślić żadnych warunków, które można znaleźć przed wdrożeniem, których nie można / nie można było zgłosić podczas instalacji lub po instalacji systemu operacyjnego.

Pętla diagnostyczna zwykle niczego nie znajdzie, gdy jest uruchomiona w systemie bez oczywistych wcześniejszych problemów. Wynika to głównie z tego, że serwer musi wykonać test POST i uruchomić się z oprogramowaniem narzędziowym lub oprogramowaniem wbudowanym Intelligent Provisioning, aby uruchomić narzędzie.

Innymi słowy, każdy element, który byłby poważnym „SPOF” dla serwera, prawdopodobnie uniemożliwiłby systemowi przeprowadzenie autodiagnostyki.

Najczęstsze awarie są nadal dość solidne; dyski powinny być w macierzy RAID i mogą być wymieniane podczas pracy. Wentylatory i zasilacze można również wymieniać podczas pracy. Twoja pamięć RAM ma progi ECC, a dla większości platform ProLiant dostępne są zapasowe opcje online. Nie można nic zrobić, aby spowodować awarię tych komponentów, uruchamiając diagnostykę. Dodaj fakt, że używasz obudów HP C7000 Blade, które mają wewnętrzne redundancje , a częstotliwość występowania awarii powinna być dość niska.

— ewwhite
źródło

Problem polega na tym, że (a) wykryto błąd po instalacji systemu operacyjnego (tj. Serwer jest w produkcji), (b) naprawy nie można wykonać online lub uszkodzony komponent jest SPOF dla serwera, a (c) serwer jest SPOF, to wystąpią przestoje (natychmiast lub po wyłączeniu systemu do naprawy). Aby uniknąć wniosku, musisz zapobiec jednemu z warunków. Chciałem (a) wykryć usterkę przed produkcją. Doceniam twoją dokładność w szczegółowym opisywaniu umiejętności raportowania, ale staram się przede wszystkim zapobiec konieczności zgłaszania ich, ponieważ tak się nie dzieje.

— Mark Wagner

Pętla diagnostyczna HP prawdopodobnie niczego nie znajdzie, biorąc pod uwagę, że serwer musi wykonać test POST i uruchomić się z narzędzia lub inteligentnego udostępniania w celu uruchomienia diagnostyki. Najczęstsze awarie są dość solidne; dyski, wentylatory i zasilacze można wymieniać podczas pracy, pamięć RAM ma progi ECC. Nic nie możesz zrobić, aby spowodować awarię tych komponentów.

— ewwhite