Zestaw wolumenu Areca 1280 ml RAID6 nie powiódł się

Dzisiaj wpadliśmy na najgorszy scenariusz i jesteśmy otwarci na wszelkiego rodzaju dobre pomysły.

Oto nasz problem:

Używamy kilku dedykowanych serwerów pamięci do hostowania naszych maszyn wirtualnych. Zanim przejdę dalej, oto specyfikacje:

Dedykowana maszyna serwerowa
Areca 1280 ml kontroler RAID, oprogramowanie wewnętrzne 1.49
12x dyski Samsung 1 TB

Skonfigurowaliśmy jeden zestaw RAID6 z 10 dyskami, które zawierają jeden wolumin logiczny. W systemie mamy dwie gorące części zamienne.

Dzisiaj jeden dysk twardy zawiódł. Zdarza się to od czasu do czasu, więc wymieniliśmy to. Po odbudowaniu drugi dysk nie powiódł się. Zwykle nie jest to zabawne. Zatrzymaliśmy ciężkie operacje IO, aby zapewnić stabilną odbudowę RAID.

Niestety dysk zapasowy zawiódł podczas przebudowy i wszystko się zatrzymało.

Teraz mamy następującą sytuację:

Kontroler mówi, że zestaw nalotów jest odbudowywany
Kontroler mówi, że wolumin się nie powiódł

Jest to system RAID 6 i dwa dyski uległy awarii, więc dane muszą być nienaruszone, ale nie możemy ponownie uruchomić woluminu online, aby uzyskać dostęp do danych.

Podczas wyszukiwania znaleźliśmy następujące informacje. Nie wiem, czy są dobre czy złe:

Odbicie lustrzane wszystkich dysków do drugiego zestawu napędów. Mielibyśmy więc możliwość wypróbowania różnych rzeczy, nie tracąc więcej niż już.
Próbuję odbudować tablicę w R-Studio. Ale nie mamy prawdziwego doświadczenia z oprogramowaniem.
Wyciągnięcie wszystkich dysków, ponowne uruchomienie systemu, zmiana na biografię kontrolera areca, ponowne wkładanie dysków twardych jeden po drugim. Niektórzy twierdzą, że dzięki temu system był online. Niektórzy twierdzą, że efekt wynosi zero. Niektórzy twierdzą, że wszystko wysadzili w powietrze.
Używanie nieudokumentowanych poleceń areca, takich jak „ratowanie” lub „LeVel2ReScUe”.
Kontakt z serwisem kryminalistycznym. Ale whoa ... pierwotne szacunki telefoniczne przekroczyły 20 000 €. Dlatego uprzejmie prosimy o pomoc. Może brakuje nam oczywistości?

I tak, oczywiście, mamy kopie zapasowe. Ale niektóre systemy straciły tydzień danych, dlatego chcielibyśmy uruchomić system ponownie.

Wszelka pomoc, sugestie i pytania są mile widziane.

— Richard
źródło

Twierdziłbym, że cokolwiek zrobisz, twoim pierwszym krokiem powinno być ddlustro wszystkich dysków, aby zapobiec większym uszkodzeniom i mieć plan awaryjny podczas pracy nad prawdziwym rozwiązaniem.

— Sven

Zrobimy to ...

— Richard

Co z punktami dostępowymi?

— Cawflands

Czy możesz skontaktować się ze sprzedawcą w celu uzyskania pomocy? Zakładając, że nie możesz (i użyłeś dd do wykonania kopii lustrzanej wszystkiego, zgodnie z doskonałą sugestią @ SvenW), dlaczego nie wymienić uszkodzonych dysków, uruchomić ponownie i zobaczyć, co się stanie? Niekoniecznie ściągałbym wszystkie dyski, tylko te uszkodzone. Ale tak naprawdę, Twoim pierwszym zakładem jest sprzedawca, rozumieją swoje oprogramowanie.

— Jeremy

Czy znalazłeś rozwiązanie? Jeśli tak, daj nam znać, co to było do wykorzystania w przyszłości!

— Grant

Odpowiedzi:

Myślę, że opcja 1. jest najlepsza.

Weź 12x nowych dysków twardych, 1x nowy kontroler RAID Spróbuj wykonać kopię lustrzaną (dd if = of =) starych dysków na nowe dyski 1: 1 przy użyciu dowolnego Linux-a. Zbuduj nowy serwer przy użyciu 1x nowego kontrolera RAID oraz 12x nowych dysków twardych

Spróbuj odbudować tablicę na nowym serwerze. Sukces? Świetny. Zatrzymać.
Odbudowa nie powiodła się? Odzyskaj ponownie stare dyski na nowe, wypróbuj opcję i + 1

— cipy
źródło

Niestety jest to bardzo powszechny scenariusz. Wiele lat temu odbyło się dobre badanie Google i okazuje się, że utrata danych z RAID może się zdarzyć podczas odbudowy macierzy. Może to wpływać na różne systemy RAID z różnym nasileniem. Oto scenariusz RAID6:

twoja tablica ma 3 dane i 2 dyski parzystości.
jeśli stracisz jeden dysk, masz pewność, że wszystkie dane można odzyskać.
jeśli stracisz 2 dyski, stracisz dane

Dlaczego?

Pomyśl o tym: niech trochę danych, załóżmy, że pierwszy 3 blok pliku masz następujące bloki danych: A1 + A2 + A3 i następującą parzystość: Ap + Ap siedzi na hdd1 ... hdd5

Jeśli stracisz dwa dyski między 1 a 3, straciłeś dane, ponieważ danych nie można odzyskać, masz 2 parzystość i 1 blok danych.

Teraz ten sam scenariusz z 10 dyskami może być inny, ale sądzę, że poradził sobie w ten sam sposób, w jaki dzielisz dane na 8 bloków i zapisujesz parzystość na 2 innych dyskach i masz 2 części zapasowe. Czy znasz szczegóły konfiguracji kontrolera RAID?

Chciałbym zacząć odzyskiwać dane z kopii zapasowej poza siedzibą (myślę, że masz trochę), a usługa powróciła, próbując odzyskać jak najwięcej danych, używając Unixa i dd dysków do obrazów i używając go jako urządzenia pętlowego.

http://wiki.edseek.com/guide:mount_loopback

Musisz wiedzieć, jakiego rodzaju metadanych używa kontroler RAID, a jeśli masz szczęście, jest on obsługiwany w takim narzędziu, jak dmraid.

Ale to nie oznacza, że możesz w ogóle odzyskać dane, ponieważ pliki są zwykle dystrybuowane w wielu blokach, odzyskiwanie prawdopodobnie nie przywróci żadnych danych.

Więcej informacji o RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

— Istvan
źródło