Mamy serwer linux, który był intensywnie używany od 3 lat. Obsługujemy na nim wiele zwirtualizowanych serwerów, niektóre z nich nie były dobrze zachowane i przez znaczny czas pojemność serwera została przekroczona, co spowodowało zły iowait. Ma 4 500 GB dyski SATA Barracuda podłączone do kontrolera RAID 3com. 1 Dysk ma system operacyjny, a pozostałe 3 są skonfigurowane do raid-5.
Teraz prowadzimy debatę na temat stanu dysków i tego, czy aktywnie się psują.
Oto część danych wyjściowych dla 1 z 4 dysków. Wszystkie mają stosunkowo podobne statystyki:
Numer wersji struktury danych atrybutów SMART: 10 Atrybuty SMART specyficzne dla dostawcy z progami: ID # ATTRIBUTE_NAME FLAG WARTOŚĆ NAJGORSZY TYP PRÓBNY ZAKTUALIZOWANO, GDY WARTOŚĆ RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 118 099 006 Zawsze przed awarią - 169074425 3 Spin_Up_Time 0x0003 095 092 000 Przed awarią Zawsze - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 26 5 Reallocated_Sector_Ct 0x0033 100 100 036 Przed awarią Zawsze - 0 7 Seek_Error_Rate 0x000f 077 060 030 Zawsze po awarii - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 27856 10 Spin_Retry_Count 0x0013 100 100 097 Przed awarią Zawsze - 1 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 26 184 Nieznany_Atrybut 0x0032 100 100 099 Old_age Zawsze - 0 187 Zgłoszone_nieprawidłowe 0x0032 100 100 000 Old_age Zawsze - 0 188 Nieznany_Atrybut 0x0032 100 100 000 Old_age Zawsze - 1 189 High_Fly_Writes 0x003a 100 100 000 Old_age Zawsze - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Lifetime Min / Max 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Always - 169074425 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Zawsze - 0 198 Offline_Niekorygowalne 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 Wersja protokołu błędów SMART: 1 Brak zarejestrowanych błędów
Moją interpretacją tego jest to, że nie mieliśmy żadnych złych sektorów ani innych oznak, że którykolwiek z dysków aktywnie ulega awarii.
Jednak wysokie wartości Raw_Read_Error_Rate i Seek_Error_Rate wskazują na to, że dyski giną.