Wymiana dysków twardych [zamknięte]


19

Zastanawiałem się, czy dobrym pomysłem jest wymiana dysku twardego w (dość) krytycznym dla systemu serwerze bazy danych po określonej liczbie lat użytkowania, zanim nastąpi jego śmierć.

Na przykład myślałem o wymianie dysku twardego po 3 latach użytkowania. Ponieważ mam wiele dysków twardych na różnych serwerach, mogłem rozłożyć, które dyski twarde zostaną wymienione.

Czy to dobry pomysł, czy ludzie po prostu czekają na niepowodzenie?

Odpowiedzi:


33

Google przeprowadził badanie dysków twardych i stwierdził bardzo małą korelację między wiekiem dysku a awarią. Testy SMART również nie pokazują awarii.

Moje lokalne obserwacje (> 500 serwerów) są podobne. Mam nowe dyski, które szybko ulegają awarii, podczas gdy stare wciąż się chowają.

Moją ogólną zasadą jest, że jeśli zauważyliśmy problemy z dyskiem (SMART lub błędy systemowe), natychmiast je wymieniamy. Jeśli nie, dyski zostaną wyłączone, gdy serwer to zrobi.

Badanie Google http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf


Tak ogólnie myślałem, ale chciałem zobaczyć, co zrobili inni. Dzięki
Garfonzo,

2
Zgadzam się. Obserwujemy znacznie wyższe wskaźniki awarii w przypadku nowszych 2,5-calowych dysków SAS niż w przypadku 10-letnich serwerów z 3,5-calowymi dyskami SCSI 9 GB!
James O'Gorman,

@ JamesO'Gorman Zmieniają się procesy produkcyjne ... zastanawiam się, co zrobiono z nowymi dyskami w ramach kompromisu technicznego.
Avery Payne,

1
W witrynie Microsoft Technet znajduje się także artykuł na temat tolerancji błędów, który krótko omawia awarie dysku twardego / elementów mechanicznych ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Mówią trochę o „krzywej wanny” tego mechanicznego awarie komponentów zwykle następują.
voretaq7,

@AveryPayne Re nowe dyski, należy pamiętać, że dyski 2,5 "mają DUŻO ściślejsze tolerancje - w rezultacie to, co kiedyś było" akceptowalnym "spadkiem mechanicznym na dysku 3,5", może prowadzić do katastrofalnej awarii na dysku 2,5 ". Zobacz także artykuł TechNet Połączyłem się z krzywą wanny - Części mechaniczne ogólnie cierpią z powodu dużej śmiertelności niemowląt, a następnie są względnie stabilne, aż w końcu umierają z powodu „starości”. Napędy 2.5 ”nadal znajdują się na terytorium„ śmiertelności niemowląt ”- według mojego doświadczenia z co najmniej 1 rok eksploatacji.
voretaq7,

13

Nie.

Jednym z największych problemów z wymianą dysku twardego na aktywnym serwerze produkcyjnym jest to, że spowoduje to przebudowę. Zwłaszcza jeśli korzystasz z RAID5, a zwłaszcza jeśli używasz dużych dysków, wymuszenie przebudowy stwarza bardzo znaczące ryzyko nieodwracalnej awarii. Ryzyko utraty macierzy podczas przebudowy jest znacznie większe niż ryzyko związane z pozostawieniem 3-letniego dysku na miejscu.

Biorąc ekstremalny przykład, jeśli sukcesywnie zamieniasz każdy dysk w 6-dyskowej macierzy RAID5 składającej się z dysków 2 TB, teoretyczne ryzyko nieodwracalnego błędu odczytu podczas jednej z przebudów wynosi około 58% (zgodnie z moją matematyką na serwetki; zrób własne i porównaj notatki). Innymi słowy: „zapobiegawcza” wymiana dysku jest w rzeczywistości niczym innym jak aktem sabotażu.

Jedynym momentem, w którym rozważałbym odświeżenie dysków na starym serwerze, byłoby „odnowienie” go, np. Po wycofaniu go z jednego zadania i przed ponownym uruchomieniem go z nową rolą. Nawet w tym momencie wymagania dotyczące pojemności i wydajności byłyby znacznie ważniejsze niż wiek dysków.


1
+1 za uruchomienie odbudowy
gregmac,

Czy możesz wyjaśnić, dlaczego ryzyko wynosi 58%? Jeśli dysk jest regularnie sprawdzany, dlaczego miałoby to bardziej obciążać proces odzyskiwania?
Mircea Vutcovici,

@MirceaVutcovici, ponieważ w konfiguracji RAID-5 wszystkie dyski będą stale aktywne podczas przebudowy w porównaniu z okazjonalnymi przypadkowymi poszukiwaniami tu i tam. Innymi słowy, „obciążenie” wszystkich napędów idzie w górę, a przy tym wzrasta również ryzyko uruchomienia drugiego uszkodzonego napędu.
Avery Payne,

@Avery Payne Wiem, że bardziej stresujesz dyski podczas przebudowy. Próbuję zrozumieć, dlaczego przebudowa bardziej obciążałaby dyski niż kontrola spójności.
Mircea Vutcovici,

@MirceaVutcovici Dokładna liczba (i jak wykonać matematykę) jest dyskusyjna, ale podstawową kwestią jest to, że musisz odczytać 10 terabajtów danych sześć razy , bez korzyści z dysku parzystości, aby poprawić błędy odczytu, aby wykonać sześć odbudowań. Prawdopodobieństwo odczytu 60 terabajtów danych, bez żadnych błędów, nie jest na twoją korzyść.
Skyhawk,

3

Nie widziałem tego Serwery objęte są gwarancją do momentu ich wycofania z produkcji - 5 lat. Standardowa macierz RAID 5 pozwala przetrwać awarię dysku, dzięki czemu mamy pod ręką kilka dysków, dzięki czemu możemy od razu rozpocząć odbudowę, a na serwerach krytycznych dołączamy hotspare lub RAID 10.

Jeśli zauważyłeś awarię kilku dysków ostatnio na serwerze możesz mieć problem z płytą montażową. Mogą to być także nowe wibracje lub kurz z pobliskiej konstrukcji.


To nie do końca prawda. jeśli duża liczba dysków pochodzi z tej samej partii, ryzyko dodania stresu związanego z przebudową jest znacznie większe. Jak zauważono w innej odpowiedzi, zwiększenie rozmiarów RAID5 powoduje zwiększenie prawdopodobieństwa URE podczas przebudowy, co powoduje, że tablica jest poniżej progu ważności raid5.
Magellan
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.