Odszyfrowanie trwających komunikatów syslog mpt2sas

15

streszczenie

Dostaję te tajemnicze wiadomości do syslog, odkąd zainstalowałem nowy sprzęt i nie mogę zrozumieć, na czym polega problem, czy jest poważny, czy co z tym zrobić.

Pochodzą z nowej karty SATA HBA i podążają za wzorem. Otrzymam kilka pierwszych wiadomości, a następnie kilka drugich 5-30 sekund później. Występują w obiektach blob, które są rejestrowane w tej samej sekundzie, a dokładna liczba każdego z nich wynosi od około 2 do 35. Pomiędzy pojawieniem się wpisów mogą być minuty lub godziny.

Przykład dwóch wiadomości:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Zawsze jest to zawsze 0x31120303, a po nim 0x31110d01.

mpt2sas to sterownik karty magistrali hosta SATA, której używam, ale treść błędu jest zbyt tajemnicza. Nie mówi mi, na czym polega problem, z jakim dyskiem lub portem jest ani jak poważny.

Sprzęt komputerowy

Supermicro X9SCL z Xeon E3-1220 i 8 GB pamięci RAM.

Supermicro AOC-USAS2-L8I SAS / SATA HBA oparty na LSI SAS2008 podłączony do zestawu tac dyskowych Supermicro CSE-M35T-1B . Posiada trzy Western Digital WD30EZRX i dwa Segate ST3000DM001 . Wszystkie dyski 3 TB (dokładnie tyle samo sektorów). Brak używanych ekspanderów portów.

Karta HBA, tace dysków i 4 dyski są nowe. Jeden z WD30EZRXes był już od miesięcy, nie miał z nim żadnych problemów. Gdyby wcześniej był podłączony do zintegrowanego kontrolera Intel SATA, przeniósł go do wnęk na dyski dzięki tej nowej konfiguracji.

Miałem problemy z częstym resetowaniem karty HBA i uzyskiwaniem naprawdę okropnej wydajności. Zaktualizowałem oprogramowanie / bios do „Phase 12”, najnowszej wersji dostępnej od Supermicro i zmieniłem typ na IT (tj. Przejściowy, z IR dla zintegrowanego raidu, ponieważ zamierzałem używać całego oprogramowania raid): 2008IT12.FW. Ta aktualizacja usunęła wszystkie wczesne problemy i nie zaczęłam otrzymywać powyższych wiadomości później (patrz poniżej).

Pierwsze cztery dyski, które dodałem, znajdują się na pierwszym porcie SFF-8087 (podzielonym na 4 kable SATA). Najnowszy dysk, który dodałem, znajduje się na drugim porcie, jeśli to ma znaczenie.

Jedyny inny dysk w systemie zawiera system operacyjny i jest to starszy dysk SSD Intel 80 GB podłączony do zintegrowanego kontrolera SATA.

Oprogramowanie

Ubuntu 11.10 (oniryczny). Linux 3.0.0-14-server x86_64. Korzystanie ze sterownika mpt2sas dostarczanego z systemem operacyjnym.

Próba zbudowania macierzy RAID6 przy użyciu Linux md z tymi pięcioma dyskami. Zaczęliśmy od zdegenerowanej macierzy 3 dysków, dwóch segmentów i jednego z nowych dysków WD. To było szybkie i poszło bardzo dobrze, brak wiadomości w logach po aktualizacji oprogramowania. Tymczasem nadal używam starego dysku WD na porcie 0 tego samego kontrolera.

Dodano inny nowy dysk WD do macierzy. Rozpoczęto przebudowę i teraz okresowo otrzymuję te wiadomości w syslog. Nie jestem pewien, ile czasu zajmie dodanie dysku do tablicy, ale szacowany czas (cat / proc / mdstat) wynosi od tysięcy do dziesiątek tysięcy minut, znacznie dłużej niż zajęły pierwsze 3 dyski. Rozumiem, że dyski WD są znacznie wolniejsze; Dostałem różne modele, aby zmniejszyć ryzyko awarii wielu dysków, a były to dwa najtańsze modele 3 TB.

Notatki

SMART nie zgłasza żadnych problemów na żadnych dyskach. Na żadnych dyskach nie ma zarejestrowanych błędów i żadne statystyki błędów nie są bliskie progu.

Zalogowane wiadomości zaczęły pojawiać się dopiero po dodaniu ostatniego dysku, co sugeruje, że może występować problem, ale nic więcej na to nie wskazuje.

Znalazłem plik nagłówka, który wydaje się odpowiadać komunikatom rejestrowania z tego sterownika. Pierwsza wiadomość wydaje się być przerwaniem (kod 12) dla „subkodu” 0303, którego nie ma na liście. Drugi komunikat to reset (kod 11) z powodu, który również nie jest jasny. Gdybym mógł ustalić, co oznaczają 0303 i 0d01, byłoby to naprawdę pomocne.

Wiem, że 4 dyski w 5-dyskowym RAID6 to niepełna tablica. Planuję skopiować zawartość starego dysku do tablicy po zakończeniu integracji czwartego dysku, a następnie dodać również stary dysk do tablicy.

— Chris Smith
źródło

5

Prawdopodobnie najlepszym rozwiązaniem jest problem sprzętowy między dyskami a kontrolerem RAID włącznie. Polecam spróbować:

Uruchom dowolne narzędzia diagnostyczne od dostawcy / dostawców, jeśli są one dostępne
Sprawdzić / ponownie osadzić / wymienić kable
rozebrać elementy sprzętowe i wymienić sprzęt w łańcuchu, który łączy dyski z kontrolerem RAID, w tym samym kontrolerem (tj. dla ciebie spróbuj czegoś innego niż zintegrowany RAID płyty głównej).

Miałem jeden z dwóch identycznych Dell PowerEdge R515 dających bardzo podobne komunikaty (dzienniki okresowo zapełniają się komunikatami mpt2sas0, chociaż nie mam dokładnych kodów numerycznych). Diagnostyka rozruchowa firmy Dell wykryła je jako „błędy sprzętowe” i zastąpienie płyty montażowej RAID sas rozwiązało problem.

Podczas badania nie mogłem znaleźć obszernego zasobu na temat znaczenia różnych kodów błędów mpt2sas0. Podejrzewam, że mogą nawet dotyczyć konkretnego dostawcy sprzętu (ktoś, kto wie więcej o SAS, musi to potwierdzić lub zaprzeczyć). Twoje kody błędów mogą oznaczać coś zupełnie innego, ale jeśli SMART jest czysty, trudno jest wyobrazić sobie inne dobre powody, dla których mpt2sas0 będzie zgłaszać kody błędów.

Błędy te mogą być bardzo poważne. Mój R515 przez tydzień wydawał się w porządku z tymi komunikatami z 12-dyskowym systemem Ubuntu Linux Raid 6, ale potem nagle wyrzucił wszystkie 12 dysków z tablicy jako uszkodzone (!)

Również w moim przypadku SMART dla wszystkich dysków był całkowicie czysty. Dobra kontrola to inteligentny autodiagnostyka: smartctl -t long /dev/sdXa następnie sprawdź wyniki około dnia później za pomocą smartctl -l selftest /dev/sdX. Jeśli wszystko jest w porządku, test powinien powiedzieć, Completeda LBA_first_errkolumna powinna być pusta.

— Rickard Armiento
źródło

Uwaga: kontroler RAID (naprawdę HBA) jest już osobną kartą. Wbudowany kontroler SATA działa dobrze. Mam zamienny kabel SFF-8087 na zamówienie, powinien być tu jutro. To mój główny podejrzany w tym momencie.

— Chris Smith

Problemem był zły kabel! Wymieniłem oba (dwa porty SFF) na kable wyższej jakości i od tamtej pory nie mam żadnych problemów! Przyjmuję twoją odpowiedź, ponieważ jest najdłuższa i sugeruje zły kabel. PS Zdecydowanie zrobiłem długie testy SMART; żadnych problemów na żadnym z dysków.

— Chris Smith

Miło słyszeć, że znalazłeś problem. Dzięki za zaakceptowanie.

— Rickard Armiento

Dla mnie to naprawdę dziwne, że spotykam się z tym problemem wcześniej, nawet w przypadku platformy Dell PowerEdge. Ten sam wynik dotyczył kabli ...

— Mazeryt

3

Łał, trudny.

To wydaje się wskazywać, że 0x31120303 jest resetem magistrali z powodu dużego obciążenia jednego z urządzeń. Mówi także, że nie musisz się tym martwić. (Haha, tak, tak.)

Oznacza to, że te komunikaty dziennika mają miejsce, ponieważ jedno z urządzeń zbyt długo reaguje na polecenia. To mówi to samo, a także wskazuje, że występuje pod dużym obciążeniem.

Chociaż nie jest to pełna odpowiedź, mam nadzieję, że wskaże ci przydatny kierunek.

— Michael Hampton
źródło

Widziałem niektóre z tych wpisów, ale nigdy nie byłem w stanie znaleźć dokładnej wiadomości. Okazał się zły kabel SFF-8087-> SATA. Dzięki za pomoc!

— Chris Smith

0

Oznacza to, że masz jakiś błąd na dysku, jest to dysk SATA w kontrolerze SAS z LSI i z powodu błędu wszystkie zaległe żądania zostały przerwane.

W większości przypadków na dysku występuje średni błąd, który jest przyczyną tego błędu. Ten błąd sam w sobie nie oznacza średniego błędu i musisz sprawdzić w dziennikach inne wskazówki, aby znaleźć źródło pierwotnej awarii dysku.

Nieco bardziej rozbudowana wersja na: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Baruch Even
źródło

Ciekawy post, dzięki za udostępnienie! SATA to kiepski protokół, ale dyski są tanie i robią to, czego potrzebuję. Komunikat nie pojawił się ponownie, ponieważ wymieniłem uszkodzony kabel.

— Chris Smith

1

Więcej dekodowania LSI Loginfo można znaleźć za pomocą narzędzia, które stworzyłem, aby je odszyfrować: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Nawet