Tak, to problem, głównie w miarę wzrostu rozmiarów napędów. Większość dysków SATA ma współczynnik URE (nieusuwalny błąd odczytu) wynoszący 10 ^ 14. Lub na każde 12 TB danych odczytanych statystycznie producent dysku twierdzi, że dysk zwróci błąd odczytu (zwykle można je sprawdzić w specyfikacjach napędu). Napęd będzie nadal działał dobrze dla wszystkich innych części napędu. Dysk Enterprise FC i SCSI ma zwykle współczynnik URE 10 ^ 15 (120 TB) wraz z niewielką liczbą dysków SATA, co pomaga go zmniejszyć.
Nigdy nie widziałem, aby dyski przestały się obracać w tym samym czasie, ale miałem problem z woluminem raid5 (5 lat temu z dyskami PATA konsumenckimi 5400 RPM). Dysk ulega awarii, jest oznaczony jako martwy i następuje przywrócenie dysku zapasowego. Problem polega na tym, że podczas przebudowy drugi dysk nie może odczytać tego małego bloku danych. W zależności od tego, kto przeprowadzi nalot, cały tom może być martwy lub tylko ten mały blok może być martwy. Zakładając, że tylko jeden blok jest martwy, jeśli spróbujesz go odczytać, pojawi się błąd, ale jeśli do niego napiszesz, napęd ponownie mapuje go w inne miejsce.
Istnieje wiele metod ochrony przed: raid6 (lub równoważny), który chroni przed awarią podwójnego dysku jest najlepszy, dodatkowe to system plików obsługujący URE, taki jak ZFS, wykorzystujący mniejsze grupy rajdowe, więc statystycznie masz mniejsze szanse na trafienie na dysk URE limity (dublowanie dużych dysków lub mniejsze dyski RAID5), czyszczenie dysku i SMART również pomaga, ale nie jest samo w sobie ochroną, ale jest stosowane jako dodatek do jednej z powyższych metod.
Zarządzam prawie 3000 wrzecionami w tablicach, a tablice stale szorują dyski w poszukiwaniu ukrytych URE. I otrzymuję ich dość stały strumień (za każdym razem, gdy go znajdzie, naprawia go przed awarią napędu i ostrzega mnie), gdybym używał raid5 zamiast raid6, a jeden z napędów był całkowicie martwy ... mieć kłopoty, jeśli trafią w określone miejsca.