Zaczynam widzieć klientów z setkami terabajtów danych (w instalacjach SQL Server). Ponieważ łączna ilość danych w niektórych przedsiębiorstwach zbliża się do znacznych ułamków petabajta, chciałbym przeszukać zbiorową bazę wiedzy, aby zobaczyć, co robią ludzie zajmujący się tak dużą ilością danych, aby ją zabezpieczyć.
Oczywistym problemem jest to, że przechowywanie wielu kopii zapasowych tak dużej ilości danych jest nadmiernie drogie, przy użyciu pamięci masowej klasy korporacyjnej, do diabła, nawet po prostu RAID-5.
Opcje, które widzę, są następujące:
- Utwórz kopię lustrzaną danych w innym centrum danych i stale wysyłaj do nich różnice (używając dowolnego mechanizmu dostępnego dla źródła danych - np. Wysyłanie dziennika lub dublowanie bazy danych za pomocą SQL Server)
- Rób regularne tworzenie kopii zapasowych za pomocą mocny algorytm kompresji (prawdopodobnie odpowiedni tylko wtedy, gdy dane nadaje się również do bycia mocno skompresowany)
- Wykonuj fragmentaryczne kopie zapasowe krytycznych / zmieniających się części danych.
- Nie twórz kopii zapasowych danych i ufaj bogom korupcji.
Widzę, że opcja nr 4 została przyjęta jako domyślna, a jako ekspert HA / DR jest to naprawdę przerażające, ale co radzę jako alternatywę? Myślę, że nr 1 jest najlepszym podejściem, ale „nie sądzę” to zwykła odpowiedź, gdy sugerowane są alternatywy oprócz nr 4 i ewentualnie nr 3.
Teraz oczywiście zależy to od szybkości zmian i krytyczności danych. Nie muszę na to odpowiadać, ponieważ byłem odpowiedzialny za wszystkie funkcje HA programu SQL Server podczas pracy w firmie Microsoft, więc jestem dobrze zaznajomiony z argumentami „to zależy” - to moja fraza :-)
Byłbym bardzo zainteresowany, aby usłyszeć o wszelkich alternatywach, które przegapiłem, lub usłyszeć, że wszyscy inni są na tej samej łodzi i nie ma realistycznej alternatywy dla wydawania dużych pieniędzy na więcej miejsca.
Z góry dziękuję - należne uznanie otrzymają wszystkie przemyślane i wyrażone odpowiedzi.