Mam mały serwer Ubuntu działający w domu, z 2 dyskami twardymi. Istnieją dwa naloty na oprogramowanie (raid1) na dyski, zarządzane przez mdadm, które moim zdaniem są nieistotne, ale i tak o nich wspominają.
Oba dyski twarde są Western Digital i były używane od około 2 lat, kiedy jeden z nich zaczął wydawać odgłosy kliknięcia i zmarł. Pomyślałem, że może to naturalne po 2 latach, więc kupiłem nowy i zsynchronizowałem tablice rajdowe. Po około miesiącu drugi dysk również zmarł.
Nie nabrałem podejrzeń, ponieważ oba dyski zostały zakupione w tym samym czasie, nie jest zaskakujące, aby zobaczyć oba obok siebie, więc kupiłem kolejny.
Do tej pory 2 stare dyski uległy awarii i 2 zupełnie nowe w systemie. Po miesiącu zmarł jeden z nowych dysków. To wtedy zaczęło być podejrzane. Ponieważ komputer został złożony z kilku naprawdę starych części (myślę, że AthlonXP), pomyślałem, że winowajcą może być kontroler SATA płyty głównej. Oczywiście nie można łatwo zamieniać części w starym komputerze takim jak ten, więc kupiłem cały system, nowy MB, nowy procesor, nową pamięć RAM. Odebrałem właśnie uszkodzony dysk, ponieważ był objęty gwarancją, i wymieniono go.
Czyli do 2 uszkodzonych dysków ze starych i 1 zepsutych dysków z nowych. Bez problemów przez 1 miesiąc. Po tym błędzie ponownie pojawiały się błędy w / var / log / messages, a mdadm zgłaszał awarie macierzy RAID. Zaczęłam odrywać włosy. Wszystko jest nowe w systemie, zależy od trzeciego zupełnie nowego dysku twardego, po prostu nie jest możliwe, aby wszystkie nowe dyski, które kupiłem, były wadliwe.
Zobaczmy, co wciąż jest powszechne ... kable. Dobra, długi strzał, wymieńmy kable SATA. Odbierz dysk twardy, uśmiechnij się do faceta przy ladzie i powiedz, że mam pecha. Zastępuje dysk twardy. Wracam do domu, mija miesiąc, a jeden z dysków twardych znowu się zawodzi. Nie żartuję.
Dwa zupełnie nowe dyski twarde uległy awarii. Może to błąd w systemie operacyjnym. Zobaczmy, co mówi narzędzie testujące producenta. Pobierz narzędzie testowe, wypal je na płycie CD, uruchom ponownie, pozostaw testowanie dysku twardego na noc. Test mówi, że dysk jest uszkodzony i powinienem wykonać kopię zapasową wszystkiego, jeśli nadal mogę. Nie wiem, co się dzieje, ale to nie wygląda na problem z oprogramowaniem, coś zdecydowanie uderza w dyski twarde.
Powinienem teraz wspomnieć, że cały system znajduje się w pudełku na buty. Ponieważ istnieje mnóstwo „budowania własnej skrzynki IKEA”, pomyślałem, że nie powinno być żadnych problemów z wrzuceniem rzeczy do pudełka i upychaniem go gdzieś. Pudełko jest dobrze wentylowane, ale pomyślałem, że może dyski się przegrzały. Nie ma na to innej możliwej odpowiedzi. Więc zabrałem dysk twardy z powrotem, wymieniłem go (po raz trzeci) i kupiłem chłodnice dysku twardego.
I właśnie teraz słyszę dźwięk zagłady. kliknij kliknij whizzzzzzzzz . SSH do pudełka:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
wyjście dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Podsumować:
- Brak możliwości przegrzania
- 6 dysków uległo awarii, 4 z nich były fabrycznie nowe. Nie jestem teraz pewien, czy dwie oryginalne były wadliwe lub cierpiały tak samo jak nowe.
- W systemie nie ma nic wspólnego oprócz systemu operacyjnego, którym jest teraz Ubuntu Karmic (zaczął od Jaunty). Nowy MB, nowy procesor, nowa pamięć RAM, nowe kable SATA.
- Nie, małe dziury na dysku twardym nie są zakryte
Płaczę. Naprawdę. Nie mam teraz twarzy, aby wrócić do sklepu, nie jest możliwe, aby 4 dyski uległy awarii w ciągu 4 miesięcy.
Kilka pomysłów, o których myślałem: czy to możliwe, że coś popsuję podczas dzielenia dysków na partycje i ponownej synchronizacji? Czy może być tak źle, że fizycznie psuje dysk? (ponieważ narzędzie dostarczone przez dostawcę mówi, że dysk jest uszkodzony) Robię partycjonowanie za pomocą fdisk i używam tego samego rozmiaru bloku dla partycji raid1 (sprawdzam dokładne rozmiary bloków za pomocą fdisk -lu)
Czy to możliwe, że jądro Linuxa lub mdadm, lub coś nie jest kompatybilne z dokładnie taką marką dysków twardych i je miażdży?
Czy to możliwe, że może to być pudełko na buty? Spróbuj umieścić go gdzie indziej? Teraz jest pod półką, więc wilgotność również nie stanowi problemu. Czy to możliwe, że normalna obudowa komputera rozwiąże mój problem (wtedy sama się zastrzelę)? Jutro dostanę zdjęcie.
Czy jestem po prostu przeklęty?
Każda pomoc lub spekulacja są bardzo mile widziane.
Edycja : Listwa zasilająca jest zabezpieczona przed przepięciem.
Edycja2 : Przeprowadziłem się między tymi 4 miesiącami, więc prawdopodobieństwo, że przyczyną jest „brudna” energia elektryczna w obu miejscach, jest bardzo niskie.
Edycja3 : Sprawdziłem napięcia w BIOSie (nie mogłem pożyczyć multimetru) i wszystkie wydają się poprawne, największa rozbieżność występuje w 12V, ponieważ dostarcza 11,3. Czy powinienem się tym martwić?
Edit4 : Umieściłem zasilacz mojego komputera stacjonarnego na serwerze. BIOS zgłosił znacznie dokładniejsze odczyty napięcia, a także pomyślnie przebudował macierz RAID1, co zajęło około 3-4 godzin, więc teraz czuję się trochę pozytywnie. Dostanie jutro nowy zasilacz do przetestowania tego. Ponadto dołączając obraz o pudełku: (zignoruj trzeci dysk)