Gdzie znajdujesz swoje dane MTBF?

9

Średni czas między awariami może być trudny do interpretacji, ale istnieje bogata metoda statystyczna, której można użyć, jeśli masz twarde dane.

Problem w tym, że nikt nie zgłasza już numerów MTBF. (W każdym razie inni niż producenci dysków twardych.)

Skąd ty go znaleźć dane MTBF dla komponentów i serwerów?

hardware

Jestem ciekawy, jak korzystasz z danych MTBF.

— dr.pooter

2

Dlaczego MTBF nie ma znaczenia

Średni czas między numerem awarii nie jest tak ważny, jak nieusuwalny poziom błędu. MTBF zajmuje się całkowitą awarią części, przeczytaj dysk. Jednak liczba ta nie ma znaczenia, gdy pojedynczy błąd, który spowoduje błąd, spowoduje panikę RAID 5 i uruchomi gorący zapas.

Podczas gdy współczynnik MTBF dla dysków profesjonalnych i konsumenckich wzrósł o rząd wielkości w ostatnich latach, nieusuwalny poziom błędu pozostał względnie stały. Szybkość ta jest szacowana na 10 ^ 14 bitów, więc jeden bit na 12 terabajtów odczytanych, dla napędów SATA, źródło .

Dlaczego warto przespać sen nad macierzą RAID 5

To tylko 6 przejazdów marki oferującej nowy dysk 2 TB. Jak długo trwa odczyt 12 TB danych? O wiele mniej czasu niż MTBF dla tego dysku.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

Bardziej niepokojąca jest szansa na podwójny błąd odczytu w macierzy RAID 5 składającej się z tak dużych dysków. W przypadku macierzy RAID 5 z napędem 7 1 TB prawdopodobnie drugi błąd odczytu podczas przebudowy macierzy RAID wynosi 50%.

http://blogs.zdnet.com/storage/?p=162

— Dave Cheney
źródło

Może zawsze mógłbyś użyć RAID6?

— Chopper3

3

Świetna odpowiedź, ale obejmuje tylko dyski twarde

— Mark Henderson

@ Chopper3, tak RAID6 poprawia sytuację, ale kiedy już dwa dyski zostaną przydzielone do parzystości, a trzeci do hot spare, a następnie na macierzy z 7 dyskami, będziesz bardzo blisko tego samego miejsca co macierz RAID10.

— Dave Cheney

Szukam danych nie tylko dla dysków twardych. Od czasu do czasu całe serwery ciągle zawodzą, dlatego warto zmierzyć, jak często.

1

Szkoda, że ludzie myślą, że liczby MTBF nie dotyczą złożonych systemów. Prawdziwy problem (afaik) polega na tym, że producenci nie mają danych MTBF dla swoich modułów sprzętowych. Są to liczby, które według wszystkich praw powinny być dostępne. Dell mówi „Dell nie wymienia już konkretnych MTBF dla swoich serwerów”. jest okropne! Mogą równie dobrze powiedzieć „Cóż, nasze rzeczy nie są wystarczająco niezawodne, aby można je było stosować tam, gdzie wymagana jest liczba MTBF”.

Inżynier ds. Niezawodności (lub facet w kapeluszu RE) ma ograniczyć zakres badania dostępności. Często ogranicza się to do modułów sprzętowych.

Jeśli chodzi o klasyfikację tego, co stanowi awarię ... Właśnie dlatego przeprowadzamy analizę FMECA.

Pewne systemy są złożone, a tryby awarii obejmują awarie oprogramowania, ale często nie jest to przedmiotem badań. Chcemy danych MTBF dla sprzętu. Poproś sprzedawcę o dostarczenie tego. Ich technicznym obowiązkiem jest dostarczenie go Tobie ... Jeśli odmówią lub przejdą na bok, idź gdzieś, gdzie są serwery klasy telekomunikacyjnej z obowiązkowymi danymi dotyczącymi dostępności sprzętu.

— Piotr
źródło

Problem, gdy sprzedawca musi opublikować MTBF, polega na tym, że musi go opublikować wcześniej niż jest w stanie zebrać prawdziwe dane. Dlatego muszą wytworzyć MTBF poprzez jakąś ekstrapolację. Czasami może to być dalekie. Najgorszy przypadek, jaki widziałem, był o ponad trzy rzędy wielkości.

— kasperd 21.04.16

0

Widziałem MTBF zgłaszane na stronach wsparcia firmy. Porozmawiaj ze sprzedawcą lub SE, aby uzyskać informacje.

— pcapademic
źródło

0

Moim zdaniem numery MTBF stały się narzędziem sprzedaży. Nowoczesny sprzęt osiągnął stan, w którym numery MTBF są zasadniczo bezużyteczne. Nawet najniższy z najniższych dostawców produkuje sprzęt, który przetrwa każdy rozsądny cykl aktualizacji. Jak zauważyłeś, nikt nie zgłasza numerów MTBF. Myślę, że to jest powód.

— dr.pooter
źródło

A jednak niektóre serwery są nadal bardziej niezawodne niż inne. Musimy odpowiedzieć na pytania typu „czy drugi zasilacz jest tego wart?” Do tego potrzebujemy danych. Idealnie byłyby to rzeczywiste statystyki awarii zgłaszane w populacji podobnych urządzeń. Używamy MTBF jako słabego proxy dla tej faktycznej dystrybucji.

Słusznie. W moim małym świecie idea redundancji jest oczekiwaną częścią tego procesu. Na inny przykład spójrz na większość dużych dostawców hostingu lub google. Nadal sugeruję, że biorąc pod uwagę status towarowy serwerów wintel, jest to problem malejący. Jeśli mówisz o serii Z lub podobnej, równania i oczekiwania są bardzo różne.

— dr.pooter

0

Niestety MTBF nie jest praktycznym ani niezawodnym pomiarem we współczesnych serwerach. Ogólna koncepcja MTBF polega na tym, że jeśli przez długi czas wiele osób używa określonego modelu / konfiguracji, prawdopodobnie znamy jego niezawodność.

Dzisiaj większość z nas chętnie sprzedaje potencjalną dodatkową niezawodność za udowodnioną dodatkową wydajność i wydajność energetyczną. Na przykład, czy zbudowałbyś nowe serwery na sprzęcie w wieku 18-24 miesięcy tylko dlatego, że udowodnił swoją niezawodność? czy po prostu korzystasz z procesorów najnowszej generacji o większej liczbie rdzeni, mocy i wydajności energetycznej?

Ponadto, w przeciwieństwie do old-schoolowych systemów telefonicznych, systemy są dość spersonalizowane i oczywiście w dużym stopniu zależne od oprogramowania. Jak niezawodna jest wersja BIOS x.xx lub wersja sterownika y.yyy? Czy najnowsze poprawki OS / DB / serwera aplikacji zwiększają stabilność, czy też występują regresje stabilności? Ile serwerów na świecie używa dokładnie tej samej mieszanki wersji sprzętowej / stosowej, co Ty?

Jeśli potrzebujesz wysokiej dostępności, i tak będziesz musiał dodać redundancję do swojego systemu (dual-wszystko, klastrowanie, hot spare, DRP, co masz). Tak więc względna niezawodność każdego komponentu sprzętowego zazwyczaj nie jest znaczącym czynnikiem, ponieważ budujesz infrastrukturę, aby przetrwać awarie pojedynczych komponentów. Po prostu żyj z niepewnością (niezawodność działa wstecz) i odpowiednio planuj.

— Ofir Manor
źródło

Problem ciągle zmieniających się konfiguracji jest prawdziwy. Utrudnia to zgromadzenie doświadczenia w jednym punkcie konfiguracji. Niemniej jednak, jeśli planujesz HA, nawet przy konfiguracji redundantnej, musisz mieć pojęcie o niezawodności poszczególnych urządzeń.

Wydaje się, że nie ma nadziei, że IT kiedykolwiek stanie się nauką. Cały czas pracujemy nad założeniami, bez twardych danych i marnotrawstwem zasobów. Teraz bardziej jak czarna magia niż cokolwiek innego. Inżynieria wydaje się odległym celem.

— Giovanni Tirloni

0

Zgadzam się z większością innych odpowiedzi: numery MTBF nie są dla mnie przydatne i nigdy ich nie sprawdzam.

Jedynym wyjątkiem są dyski twarde, ale nawet tam patrzę na MTBF tylko w bardzo szorstki sposób, kupując bardziej niezawodne dyski „klasy serwerowej”, jeśli istnieje wybór.

— Totem - Przywróć Monikę
źródło