DL380 G5, RAID5, ext3, RAID nie powiodło się


9

Mamy stary serwer HP DL380G5 z 5 dyskami SCSI 3,5 '' o pojemności 300 GB w macierzy RAID5, w zewnętrznej wnęce, sformatowanej jako wolumin logiczny z systemem plików ext3, który obsługuje 1,2 TB wrażliwych danych pacjentów klinicznych.

Dwa dyski wykazały przewidywalną awarię w hpacucli, więc najpierw wymieniłem jeden z nich i zobaczyłem, że jest OK, ale nie zauważyłem, że zawiera również komunikat „Gotowy do odbudowy”. Zupełnie beztrosko zmieniłem także drugi, a teraz mówi, że RAID nie działa.

Zwróciłem stary dysk z powrotem, próbowałem ponownie uruchomić serwer, ale teraz przełącza mnie w tryb odzyskiwania podczas uruchamiania i mówi, że nie może znaleźć woluminu logicznego.

Cokolwiek mogę zrobić, aby spróbować to przywrócić? Niestety nie mamy kopii zapasowej. Każda pomoc byłaby mile widziana!

Myślałem o zwróceniu ZARÓWNO starych dysków, czy jest szansa, że ​​przywróci RAID?


Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
Michael Hampton

4
Wyobrażam sobie, że twoja grupa zacznie teraz tworzyć kopie zapasowe. Jeśli kiedykolwiek była to kwestia konieczności lub kosztów, powinno to być dość wyraźne ostrzeżenie.
Jonathon Reinhart

Odpowiedzi:


25

Przepraszam. Ale to błąd operatora.

Miałeś dwa dyski z awarią w macierzy RAID5 i usunąłeś więcej dysków, niż mogłaby wytrzymać macierz.

Robienie tego bez żadnych kopii zapasowych jest większym błędem.

Należy skontaktować się z firmą zajmującą się odzyskiwaniem danych, aby spróbować odzyskać dane z uszkodzonego dysku logicznego.


1
Wygląda na to, że wie, że to błąd operatora… To nie jest powód, by nie pytać, co może teraz zrobić
StarWeaver,

@StarWeaver Tak ... skontaktowanie się z firmą zajmującą się odzyskiwaniem danych jest kolejnym właściwym krokiem.
ewwhite

11

Nie włączaj ponownie systemu. Zamknij, zadzwoń do usługi odzyskiwania danych. Istnieje wiele usług, które pozwalają na zdalne odzyskanie tego typu awarii. W tym momencie wszystko, co możesz zrobić, to pogorszyć sytuację.

Często wiąże się to z podłączeniem wszystkich napędów bezpośrednio do dobrze znanej karty HBA (nie z kartą RAID lub innym kontrolerem!) I uruchomieniem konkretnego obrazu Linuksa do pobrania za pomocą narzędzi do zdalnego zarządzania. Firma następnie uzyskuje zdalny dostęp do systemu, ocenia stan dysku i odzyskuje wszelkie pozostałe metadane RAID. Korzystając z zastrzeżonego oprogramowania, mogą ponownie złożyć wirtualny dysk RAID (szczegóły techniczne: często coś, co podłącza się do standardowego systemu mapującego urządzenia Linux). To odsłania oprogramowanie RAID przeznaczone tylko do odczytu (bez akceleratora RAID SoC). Kolejne kroki to sprawdzenie, czy dane nie są uszkodzone poza użytkowaniem i klonowanie dysku wirtualnego na nowy dysk w celu dokończenia odzyskiwania danych. Następnie możesz się martwić przywróceniem systemu do działania.

Chociaż nie zamierzam tu wymieniać żadnych usług, większość z nich jest łatwa do znalezienia, a dla tych ze zdalnymi usługami (oszczędzając ci podróży w obie strony wysyłania dysków RAID + dysku odzyskiwania i czekania na odzyskiwanie + klonowanie i a następnie wysyłają je z powrotem), zyskujesz korzyść z danych, które nigdy nie opuszczają Twojego obiektu.


Mała ilość dobrych wiadomości: tak długo, jak kontroler RAID (lub ty) nie zapisuje żadnych nowych danych na żadnym z dysków, a ostrzeżenie przed awarią nie jest ostrzeżeniem o awarii, istnieje praktycznie 99,9999% szansy dobry zespół do odzyskiwania danych może przywrócić wszystko, i to dość szybko.


5

Re: przywracanie starych dysków.

Ponieważ macierz RAID jest całkowicie martwa w obecnej postaci, nie ma wiele do stracenia, instalując dwa dyski przed awarią.

Zainstaluj je w oryginalnych wnękach.

Pamiętaj, że przed awarią nie zawiodły całkowicie, więc istnieje spora szansa, że ​​będą działać wystarczająco długo, aby uratować twoje dane.

Istnieje szansa, że ​​nalot po prostu nie nadejdzie, a niewielka szansa, że ​​kontroler poprosi o „zresetowanie” nalotu (wybierz NIE / ANULUJ), i niewielka szansa, że ​​kontroler nalotu może automatycznie zresetować nalot, co neguje dowolną wartość dodane przez firmę zajmującą się odzyskiwaniem danych.

Tak więc twoim najwyższym priorytetem, jeśli pojawi się RAID, jest usunięcie danych. Że środki mające dostępne co najmniej 1,2 TB miejsca i gotowe do kopiowania danych off, a narzędziem jak robocopyi xcopy32czy w Twoim przypadku linux rsync gotowa do uruchomienia. Nie chcesz tracić czasu na czytanie stron podręcznika i wymyślanie składni, jeśli dyski tracą ostatnie minuty.


Gdy twoje dane będą bezpieczne, ponownie utwórz nalot jako raid6 z nowymi dyskami. Zrzucisz 300 GB pojemności, ale zyskasz tolerancję na dwa dyski. Lub dodaj dodatkowy dysk i rozważ raid10 na 6 dyskach. Lub rozważ całkowite wycofanie tej maszyny; G5 ma ponad 10 lat i naprawdę nie nadaje się już do ważnych zadań produkcyjnych.

I nie próbuj uruchamiać systemu, ale skonfiguruj też odpowiednie rozwiązanie do tworzenia kopii zapasowych. Będzie następny raz.


2
Tylko dla wyjaśnienia - istnieje niewielka, ale niezerowa szansa, że ​​zrobienie tego utrudni każdej komercyjnej firmie zajmującej się odzyskiwaniem danych skuteczną pomoc. Osobiście postaram się zmontować nalot, a jeśli to nie zadziała, dokonaj podsumowania.
Criggie,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.