Dzisiaj wpadliśmy na najgorszy scenariusz i jesteśmy otwarci na wszelkiego rodzaju dobre pomysły.
Oto nasz problem:
Używamy kilku dedykowanych serwerów pamięci do hostowania naszych maszyn wirtualnych. Zanim przejdę dalej, oto specyfikacje:
- Dedykowana maszyna serwerowa
- Areca 1280 ml kontroler RAID, oprogramowanie wewnętrzne 1.49
- 12x dyski Samsung 1 TB
Skonfigurowaliśmy jeden zestaw RAID6 z 10 dyskami, które zawierają jeden wolumin logiczny. W systemie mamy dwie gorące części zamienne.
Dzisiaj jeden dysk twardy zawiódł. Zdarza się to od czasu do czasu, więc wymieniliśmy to. Po odbudowaniu drugi dysk nie powiódł się. Zwykle nie jest to zabawne. Zatrzymaliśmy ciężkie operacje IO, aby zapewnić stabilną odbudowę RAID.
Niestety dysk zapasowy zawiódł podczas przebudowy i wszystko się zatrzymało.
Teraz mamy następującą sytuację:
- Kontroler mówi, że zestaw nalotów jest odbudowywany
- Kontroler mówi, że wolumin się nie powiódł
Jest to system RAID 6 i dwa dyski uległy awarii, więc dane muszą być nienaruszone, ale nie możemy ponownie uruchomić woluminu online, aby uzyskać dostęp do danych.
Podczas wyszukiwania znaleźliśmy następujące informacje. Nie wiem, czy są dobre czy złe:
Odbicie lustrzane wszystkich dysków do drugiego zestawu napędów. Mielibyśmy więc możliwość wypróbowania różnych rzeczy, nie tracąc więcej niż już.
Próbuję odbudować tablicę w R-Studio. Ale nie mamy prawdziwego doświadczenia z oprogramowaniem.
Wyciągnięcie wszystkich dysków, ponowne uruchomienie systemu, zmiana na biografię kontrolera areca, ponowne wkładanie dysków twardych jeden po drugim. Niektórzy twierdzą, że dzięki temu system był online. Niektórzy twierdzą, że efekt wynosi zero. Niektórzy twierdzą, że wszystko wysadzili w powietrze.
Używanie nieudokumentowanych poleceń areca, takich jak „ratowanie” lub „LeVel2ReScUe”.
Kontakt z serwisem kryminalistycznym. Ale whoa ... pierwotne szacunki telefoniczne przekroczyły 20 000 €. Dlatego uprzejmie prosimy o pomoc. Może brakuje nam oczywistości?
I tak, oczywiście, mamy kopie zapasowe. Ale niektóre systemy straciły tydzień danych, dlatego chcielibyśmy uruchomić system ponownie.
Wszelka pomoc, sugestie i pytania są mile widziane.
dd
lustro wszystkich dysków, aby zapobiec większym uszkodzeniom i mieć plan awaryjny podczas pracy nad prawdziwym rozwiązaniem.