Widziałem dyskusję na temat wykorzystania RAM ECC na serwerach. Dlaczego to jest lepsze?
Widziałem dyskusję na temat wykorzystania RAM ECC na serwerach. Dlaczego to jest lepsze?
Odpowiedzi:
Pamięć ECC RAM może odzyskać po niewielkich błędach w bitach, wykorzystując bity parzystości. Ponieważ serwery są zasobem wspólnym, w którym ważna jest dostępność i niezawodność, pamięć RAM ECC jest zwykle używana z niewielką różnicą w cenie. Pamięć ECC RAM jest również wykorzystywana na stacjach roboczych CAD / CAM, ponieważ małe błędy bitowe mogą powodować błędy obliczeniowe, które stają się poważniejszymi problemami, gdy projekt przechodzi do produkcji.
Doskonałe badanie w świecie rzeczywistym:
Błędy pamięci DRAM na wolności: badanie terenowe na dużą skalę (pdf)
Artykuł ten stanowi pierwsze na dużą skalę badanie błędów pamięci DRAM w terenie. Opiera się na danych zebranych z floty serwerów Google przez okres ponad dwóch lat, co stanowi wiele milionów dni DIMM. DRAM w naszym badaniu obejmuje wielu dostawców, gęstości DRAM i technologie (DDR1, DDR2 i FBDIMM).
Artykuł dotyczy następujących pytań: Jak często występują błędy pamięci? Jakie są ich właściwości statystyczne? Jak wpływają na nie czynniki zewnętrzne, takie jak temperatura i wykorzystanie systemu? Jak różnią się one w zależności od czynników specyficznych dla układu, takich jak gęstość układu, technologia pamięci i wiek DIMM?
Stwierdzamy, że w wielu aspektach błędy DRAM w terenie zachowują się zupełnie inaczej niż się powszechnie uważa. Na przykład obserwujemy wskaźniki błędów pamięci DRAM, które są o rząd wielkości wyższe niż poprzednio zgłaszane, przy współczynnikach FIT (awarie czasu na miliard godzin pracy urządzenia) od 25 000 do 70 000 na Mbit i ponad 8% DIMM rocznie. Dostarczamy mocnych dowodów na to, że błędy pamięci są zdominowane przez błędy twarde, a nie błędy miękkie, na których skupia się większość poprzednich prac. Stwierdzamy, że spośród wszystkich czynników, które wpływają na zachowanie błędów DIMM w terenie, temperatura ma zaskakująco mały wpływ. Wreszcie, w przeciwieństwie do powszechnych obaw, nie obserwujemy żadnych oznak, że wskaźniki błędów per-DIMM rosną wraz z nowszymi generacjami modułów DIMM.
Ciekawe, że większość błędów pamięci była trudna - twardych błędów pamięci nie można odzyskać, co oznacza, że pamięć musi zostać fizycznie wymieniona jako uszkodzona , podczas gdy błędy miękkiej pamięci można naprawić, zastępując pamięć prawidłową wartością. Wskazuje mi to, że wartość ECC jest dość ograniczona.
Istnieją dwa rodzaje błędów, które zwykle mogą wystąpić w systemie pamięci. Pierwszy nazywa się powtarzalnym lub twardym błędem. W tej sytuacji element sprzętowy jest zepsuty i konsekwentnie zwraca nieprawidłowe wyniki. Trochę może utknąć, aby na przykład zawsze zwracało „0”, bez względu na to, co jest zapisane. Ciężkie błędy zwykle wskazują na luźne moduły pamięci, uszkodzone układy scalone, wady płyty głównej lub inne problemy fizyczne. Są stosunkowo łatwe do zdiagnozowania i poprawienia, ponieważ są spójne i powtarzalne.
Wygląda na to, że wszystkie serwery w badaniu wykorzystywały ECC, więc nie możemy poznać ECC w porównaniu do poziomów błędów innych niż ECC.
W tym artykule zbadano występowanie i charakterystykę błędów DRAM w dużej flocie serwerów towarowych. Nasze badanie opiera się na danych gromadzonych przez ponad 2 lata i obejmuje moduły DIMM wielu dostawców, generacji, technologii i mocy. Wszystkie moduły DIMM zostały wyposażone w logikę korekcji błędów (ECC) w celu korekty błędów co najmniej jednego bitu.
ECC ma kilka zalet w stosunku do parzystości. Po pierwsze, może wykrywać i naprawiać błędy jednobitowe i robić to bez konieczności zatrzymywania całego systemu. Błędy wielobitowe nadal zwrócą błąd parzystości, ale szanse na to są astronomicznie niskie w czasie życia komputera, chyba że sama pamięć jest wadliwa. ECC jest jak ubezpieczenie samochodu: obejmuje większość rzeczy, które mogą się nie udać, ale nie może zapobiec stosowi samochodów.
więcej szczegółów tutaj: Pamięć ECC: Konieczność dla serwerów, a nie dla komputerów stacjonarnych
Upraszczając, cytowanie z Wikipedii :
Zakłócenia elektryczne lub magnetyczne w systemie komputerowym mogą powodować, że pojedynczy bit DRAM samorzutnie przechodzi w stan przeciwny. Początkowo sądzono, że było to spowodowane głównie cząsteczkami alfa emitowanymi przez zanieczyszczenia w materiale do pakowania chipów, ale badania [5] wykazały, że większość błędów jednorazowych („miękkich”) w chipach DRAM powstaje w wyniku promieniowania tła
...
Ten problem można złagodzić za pomocą modułów DRAM, które zawierają dodatkowe bity pamięci i kontrolery pamięci, które wykorzystują te bity. Te dodatkowe bity są używane do rejestrowania parzystości lub do użycia kodu korygującego błędy