Rozważam użycie konfiguracji RAID0 dla jednego z naszych klastrów SQL Server. Opiszę sytuację i szukam, dlaczego może to być zły pomysł. Również jeśli ktoś, kto ma przypadki użycia, białe księgi lub inną dokumentację, może wskazać mi ten temat, byłoby świetnie.
Mamy 3 serwery w 2 centrach danych, które są częścią klastra SQL. Wszystkie działają z programem SQL Server w grupie dostępności. Podstawowa ma replikę znajdującą się tuż obok niej, a drugą w innym centrum danych. Działają replikacji synchronicznej z automatycznym przełączaniem awaryjnym. Wszystkie dyski są dyskami SSD klasy korporacyjnej. Będą działać SQL Server 2017 lub 2019.
Sądzę, że korzystanie z nich na macierzach RAID0 przyniosłoby wiele korzyści w porównaniu z innymi metodami, z niewielkimi, jeśli w ogóle, istotnymi wadami. Jedynym minusem, który obecnie widzę, jest brak nadmiarowości na serwerze podstawowym, więc jego awaria wzrasta. Jako profesjonaliści:
Jeśli dysk ulegnie awarii, zamiast pracować w spowolnionym, zdegradowanym stanie, dopóki ktoś nie otrzyma powiadomienia o ręcznym działaniu na nim, serwer natychmiast przejdzie w stan awaryjny, utrzymując pełną zdolność operacyjną. Dodatkową korzyścią będzie powiadomienie nas o przełączeniu awaryjnym, abyśmy mogli wcześniej zbadać przyczynę.
Zmniejsza to ogólne ryzyko awarii na pojemność TB. Ponieważ nie potrzebujemy napędów parzystości lub dublowania, zmniejszamy liczbę napędów na macierz. Przy mniejszej liczbie dysków istnieje mniejsze całkowite prawdopodobieństwo awarii dysku.
To jest tańsze. Potrzebowanie mniejszej liczby dysków do uzyskania wymaganej pojemności oczywiście kosztuje mniej.
Wiem, że to nie jest konwencjonalne myślenie biznesowe, ale czy jest coś, czego nie rozważam? Chciałbym mieć jakikolwiek wkład zarówno za, jak i przeciw.
Nie próbuję tego robić w celu zwiększenia wydajności zapytań, ale jeśli są sensowne, możesz je wskazać. Moim głównym zmartwieniem jest to, że nie rozważałem ani nie rozwiązałem problemu z niezawodnością lub redundancją, o którym nie myślałem.
System operacyjny znajduje się na osobnym dysku lustrzanym, więc sam serwer powinien pozostać bezczynny. Jeden z tych dysków można wymienić i ponownie utworzyć kopię lustrzaną. Jest mały i nie ma na nim żadnych plików bazy danych innych niż systemowe bazy danych. Nie mogę sobie wyobrazić, że zajmie to więcej niż minuty. Jeśli jedna z tablic danych zawiedzie, wymieniamy dysk, odbudowujemy tablicę, przywracamy i ponownie synchronizujemy z AG. Z mojego osobistego doświadczenia, przywracanie było DUŻO szybsze niż przebudowywanie dysku RAID5. Nigdy nie miałem awarii RAID1, więc nie wiem, czy ta odbudowa będzie szybsza, czy nie. Przywracania będą pochodzić z kopii zapasowej i zostaną przeniesione do pierwotnego, więc wzrost obciążenia na serwerze podstawowym powinien być bardzo minimalny, synchronizując tylko kilka ostatnich minut dzienników z odzyskaną repliką.