Krótka odpowiedź
Nie można zagwarantować długich ram czasowych z powodu entropii (zwanej również śmiercią!). Cyfrowe dane giną i giną, jak każda inna rzecz we wszechświecie. Ale można go spowolnić.
Obecnie nie ma niezawodnego i naukowo udowodnionego sposobu na zagwarantowanie ponad 30 lat zimnej archiwizacji danych. Niektóre projekty zamierzają to zrobić, na przykład projekt Rosetta Disks z muzeum Long Now , choć są one nadal bardzo kosztowne i mają małą gęstość danych (około 50 MB).
W międzyczasie możesz używać sprawdzonych i odpornych nośników optycznych do przechowywania w chłodni, takich jak dyski Blu-ray HTL, takie jak Panasonic, lub DVD + R klasy archiwalnej, jak Verbatim Gold Archival, i przechowywać je w szczelnych pojemnikach w miękkim miejscu (unikaj wysoka temperatura) i poza światłem.
Też być zbędny : Tworzenie wielu kopii danych (co najmniej 4) i obliczyć skróty do regularnie sprawdzać, czy wszystko jest w porządku, a co kilka lat należy przepisać dane na nowych dyskach. Ponadto użyj wielu kodów korekcji błędów , które pozwolą Ci naprawić uszkodzone dane!
Długa odpowiedź
Dlaczego dane są z czasem niszczone? Odpowiedź leży w jednym słowie: entropia . Jest to jedna z podstawowych i nieuniknionych sił wszechświata, która sprawia, że systemy stają się coraz mniej uporządkowane w czasie. Korupcja danych jest dokładnie taka: zaburzenie w kolejności bitów. Innymi słowy, Wszechświat nienawidzi twoich danych .
Walka z entropią przypomina walkę ze śmiercią: nigdy nie odniesiesz sukcesu. Ale możesz znaleźć sposoby na spowolnienie śmierci, tak jak możesz spowolnić entropię. Możesz także oszukać entropię, naprawiając zepsucie (innymi słowy: nie możesz powstrzymać zepsuć, ale możesz naprawić po ich wystąpieniu, jeśli wcześniej podjąłeś środki!). Podobnie jak w przypadku życia i śmierci, nie ma magicznej kuli ani jednego rozwiązania dla wszystkich, a najlepsze rozwiązania wymagają bezpośredniego zaangażowania się w cyfrową kurację twoich danych. I nawet jeśli zrobisz wszystko poprawnie, nie masz gwarancji, że Twoje dane będą bezpieczne, tylko zmaksymalizujesz swoje szanse.
Teraz dobra wiadomość: istnieją teraz całkiem wydajne sposoby przechowywania danych, jeśli połączysz dobrej jakości nośniki pamięci i dobre strategie archiwizacji / kuracji : powinieneś zaprojektować na wypadek awarii .
Jakie są dobre strategie kuracyjne? Wyjaśnijmy jedno: większość informacji, które znajdziesz, dotyczy kopii zapasowych, a nie archiwizacji. Problem polega na tym, że większość ludzi prześle swoją wiedzę na temat strategii tworzenia kopii zapasowych do archiwizacji, dlatego wiele mitów jest obecnie powszechnie słyszanych. Rzeczywiście, przechowywanie danych przez kilka lat (tworzenie kopii zapasowych) i przechowywanie danych przez najdłuższy możliwy okres, obejmujący co najmniej dekady (archiwizacja), są całkowicie innymi celami, a zatem wymagają różnych narzędzi i strategii.
Na szczęście jest całkiem sporo badań i wyników naukowych, dlatego radzę odwoływać się do tych artykułów naukowych, a nie na forach lub czasopismach. Tutaj streszczę niektóre z moich odczytów.
Uważaj również na twierdzenia i nie niezależne badania naukowe, twierdząc, że taki lub taki nośnik danych jest idealny. Pamiętaj o słynnym projekcie BBC Domesday: „Cyfrowa książka Domesday trwa 15 lat, a nie 1000” . Zawsze dokładnie sprawdzaj badania z naprawdę niezależnymi papierami, a jeśli nie ma, zawsze zakładaj, że nośnik pamięci nie nadaje się do archiwizacji.
Wyjaśnijmy, czego szukasz (z twojego pytania):
Archiwizacja długoterminowa : chcesz przechowywać kopie swoich rozsądnych, nieodtwarzalnych „danych osobowych”. Archiwizacja zasadniczo różni się od kopii zapasowej , co zostało wyjaśnione tutaj : kopie zapasowe dotyczą dynamicznych danych technicznych, które są regularnie aktualizowane, a zatem muszą zostać odświeżone do kopii zapasowych (tj. Systemu operacyjnego, układu folderów roboczych itp.), Podczas gdy archiwa to dane statyczne, które najprawdopodobniej napiszesz tylko raz i od czasu do czasu czytasz . Archiwa są przeznaczone dla danych wewnętrznych , zwykle osobistych.
Chłodnia : chcesz w jak największym stopniu unikać przechowywania zarchiwizowanych danych. Jest to WIELKIE ograniczenie, ponieważ oznacza, że nośnik musi używać komponentów i metodologii pisania, które pozostają stabilne przez bardzo długi czas, bez żadnych manipulacji ze strony użytkownika i bez konieczności podłączania do komputera lub zasilania elektrycznego.
Aby ułatwić naszą analizę, najpierw przeanalizujmy rozwiązania chłodnicze, a następnie długoterminowe strategie archiwizacji.
Nośniki chłodnicze
Zdefiniowaliśmy powyżej, jaki powinien być dobry nośnik danych do przechowywania w chłodni: powinien on przechowywać dane przez długi czas bez żadnych manipulacji (dlatego nazywa się to „zimnem”: możesz po prostu przechowywać je w szafie i nie musisz go podłączać do komputer do przechowywania danych).
Papier może wydawać się najbardziej odpornym nośnikiem pamięci na ziemi, ponieważ często znajdujemy bardzo stary rękopis z czasów starożytnych. Jednak papier ma poważne wady: po pierwsze, gęstość danych jest bardzo niska (nie można przechowywać więcej niż ~ 100 KB na papierze, nawet z małymi postaciami i narzędziami komputerowymi), a wraz z upływem czasu ulega degradacji bez możliwości monitorowania: papier , podobnie jak dyski twarde, cierpią z powodu cichego uszkodzenia. Ale chociaż możesz monitorować ciche niszczenia danych cyfrowych, nie możesz tego robić na papierze. Na przykład nie można zagwarantować, że obraz zachowa te same kolory tylko przez dekadę: kolory ulegną degradacji i nie można znaleźć oryginalnych kolorów. Oczywiście możesz kuratować Twoje zdjęcia, jeśli jesteś profesjonalistą w przywracaniu obrazów, ale jest to bardzo czasochłonne, natomiast w przypadku danych cyfrowych możesz zautomatyzować ten proces leczenia i przywracania.
Dyski twarde (HDD) są znane , aby mieć średnią żywotność od 3 do 8 lat: nie tylko pogorszyć się w czasie, są one gwarantowane, aby w końcu umrzeć (tj: niedostępne). Poniższe krzywe pokazują tę tendencję, że wszystkie dyski twarde umierają w oszałamiającym tempie:
Krzywa wanny pokazująca ewolucję wskaźnika awaryjności HDD w zależności od rodzaju błędu (dotyczy również każdego zaprojektowanego urządzenia):
Krzywa pokazująca wskaźnik awaryjności HDD, scalone wszystkie typy błędów:
Źródło: Backblaze
Widać, że istnieją 3 rodzaje dysków twardych w zależności od ich awarii: szybko umierające (np. Błąd produkcyjny, dyski twarde złej jakości, awaria głowicy itp.), Te o stałej szybkości umierania (dobra produkcja, umierają na różne „ normalne ”powody, dotyczy to większości dysków twardych), a na koniec solidne, które żyją nieco dłużej niż większość dysków twardych i ostatecznie umierają wkrótce po„ normalnych ”(np .: szczęśliwe dyski twarde, niezbyt często używane, idealne warunki otoczenia itp.). W ten sposób masz gwarancję, że Twój dysk twardy umrze.
Dlaczego dyski twarde tak często umierają? Mam na myśli, że dane są zapisywane na dysku magnetycznym, a pole magnetyczne może trwać dekady, zanim zniknie. Powodem ich śmierci jest to, że nośnik pamięci (dysk magnetyczny) i sprzęt do odczytu (płytka elektroniczna + głowica obrotowa) są sprzężone : nie można ich oddzielić, nie można po prostu wyjąć dysku magnetycznego i odczytać go inną głowicą, ponieważ najpierw tablica elektroniczna (która zamienia fizyczne dane na cyfrowe) jest inna dla prawie każdego dysku twardego (nawet tej samej marki i numeru referencyjnego, zależy to od fabryki), a wewnętrzny mechanizm z obracającą się głowicą jest tak skomplikowany, że w dzisiejszych czasach jest to niemożliwe aby człowiek doskonale umieścił obracającą się głowę na dyskach magnetycznych bez ich zabijania.
Ponadto wiadomo, że dyski twarde rozmagnesowują się z upływem czasu, jeśli nie są używane (w tym dyski SSD). Dlatego nie możesz po prostu przechowywać danych na dysku twardym, przechowywać ich w szafie i myśleć, że zachowa dane bez żadnego połączenia elektrycznego: musisz podłączyć dysk twardy do źródła elektrycznego co najmniej raz w roku lub co kilka lat . Dlatego dyski HDD wyraźnie nie nadają się do przechowywania w chłodniach.
Taśmy magnetyczne : często opisuje się je jako niezbędne do tworzenia kopii zapasowych i rozszerzenia do archiwizacji. Problem z taśmami magnetycznymi polega na tym, że są one BARDZO wrażliwe: cząstki tlenku magnetycznego można łatwo zniszczyć pod wpływem słońca, wody, powietrza, zadrapań, rozmagnesować za pomocą czasu lub dowolnego urządzenia elektromagnetycznego lub po prostu spaść z czasem lub wydrukować . Dlatego są one zwykle używane przez profesjonalistów tylko w centrach danych. Ponadto nigdy nie udowodniono, że mogą przechowywać dane przez ponad dekadę. Dlaczego więc często zaleca się tworzenie kopii zapasowych? Ponieważ kiedyś były tanie: w przeszłości korzystanie z taśm magnetycznych kosztowało od 10 do 100 razy tańsze użycie dysków magnetycznych niż dysków twardych, a dyski twarde były o wiele mniej stabilne niż obecnie. Dlatego taśmy magnetyczne są zalecane przede wszystkim do tworzenia kopii zapasowych ze względu na opłacalność, nie ze względu na elastyczność, która najbardziej interesuje nas, jeśli chodzi o archiwizację danych.
Karty CompactFlash i Secure Digital (SD) są znane z tego, że są dość solidne i wytrzymałe, zdolne do przetrwania w katastrofalnych warunkach .
Jak wynika z magazynu Digital Camera Shopper, karty pamięci w większości aparatów są praktycznie niezniszczalne. Zachowało się pięć formatów kart pamięci: gotowanych, zdeptanych, mytych i zamoczonych w kawie lub coli.
Jednak, jak każdy inny ośrodek oparty na magnesie, do zatrzymania danych wykorzystuje pole elektryczne, a zatem jeśli na karcie zabraknie soku, dane mogą zostać całkowicie utracone. Dlatego nie jest to idealne rozwiązanie do przechowywania w chłodni (ponieważ trzeba od czasu do czasu przepisać całe dane na karcie, aby odświeżyć pole elektryczne), ale może być dobrym nośnikiem do tworzenia kopii zapasowych i archiwizacji krótko- lub średnioterminowej.
Nośniki optyczne: Nośniki optyczne to klasa nośników pamięci polegających na czytaniu danych za pomocą lasera, takich jak CD, DVD lub Blu-ray (BD). Można to postrzegać jako ewolucję papieru, ale zapisujemy dane w tak małym rozmiarze, że potrzebowaliśmy bardziej precyzyjnego i odpornego materiału niż papier, a dyski optyczne to po prostu. Dwie największe zalety nośników optycznych polegają na tym, że nośnik pamięci jest odłączony od sprzętu do odczytu (tzn. W przypadku awarii czytnika DVD zawsze można kupić inny, aby odczytać dysk) i że jest on oparty na laserze, co czyni go uniwersalnym i dowód na przyszłość (tj. o ile wiesz, jak zrobić laser, zawsze możesz go ulepszyć, aby odczytał bity dysku optycznego przez emulację, tak jak zrobił to CAMILEON dla projektu Domesday BBC ).
Jak każda technologia, nowe iteracje oferują nie tylko większą gęstość (pomieszczenie do przechowywania), ale także lepszą korekcję błędów i lepszą odporność na rozkład środowiskowy (nie zawsze, ale ogólnie prawda). Pierwsza debata na temat niezawodności DVD była między DVD-R i DVD + R, a nawet jeśli DVD-R są nadal powszechne, DVD + R są uznawane za bardziej niezawodne i precyzyjne . Obecnie dostępne są dyski DVD klasy archiwalnej, specjalnie zaprojektowane do przechowywania w chłodni, które twierdzą, że mogą wytrzymać minimum ~ 20 lat bez jakiejkolwiek konserwacji:
Złota płyta DVD-R firmy Verbatim [...] została oceniona jako najbardziej niezawodny DVD-R w szczegółowym długoterminowym teście warunków skrajnych przez dobrze oceniany niemiecki magazyn c't (c't 16/2008, strony 116-123 ) [...] osiągając minimalną trwałość 18 lat i średnią trwałość od 32 do 127 lat (w 25 ° C, 50% wilgotności). Żadna inna płyta nie zbliżyła się do tych wartości, druga najlepsza płyta DVD-R miała minimalną trwałość zaledwie 5 lat.
Z LinuxTech.net .
Co więcej, niektóre firmy specjalizują się w bardzo długoterminowej archiwizacji DVD i szeroko je sprzedają, takie jak M-Disc Millenniata lub DataTresorDisc, twierdząc, że mogą przechowywać dane przez ponad 1000 lat i zweryfikowane przez niektóre (niezależne) badania (z 2009) wśród innych mniej naukowych .
To wszystko wydaje się bardzo obiecujące! Niestety, nie ma wystarczających niezależnych badań naukowych, aby potwierdzić te twierdzenia, a kilka dostępnych nie jest tak entuzjastycznych:
Wilgotność (80% RH) i temperatura (80 ° C) przyspieszyły starzenie na kilku płytach DVD w ciągu 2000 godzin (około 83 dni) testu z regularnym sprawdzaniem czytelności danych:
Tłumaczenie z francuskiej instytucji ds. Archiwizacji danych cyfrowych (Archives de France), opracowanie z 2012 r.
Pierwszy wykres pokazuje DVD z powolną ewolucją degradacji. Drugie DVD z szybkimi krzywymi degradacji. Trzeci dotyczy specjalnych „bardzo długoterminowych” płyt DVD, takich jak M-Disc i DataTresorDisc. Jak widzimy, ich wydajność nie do końca odpowiada twierdzeniom, ponieważ jest niższa lub na równi ze standardowymi, niearchiwalnymi płytami DVD!
Jednak nieorganiczne dyski optyczne, takie jak M-Disc i DataTresorDisc, mają jedną zaletę: są dość niewrażliwe na degradację światła:
Przyspieszone starzenie przy użyciu światła (750 W / m²) w ciągu 240 godzin:
Są to świetne wyniki, ale DVD klasy archiwalnej, takie jak Verbatim Gold Archival, również osiąga tę samą wydajność, a ponadto światło jest najbardziej kontrolowanym parametrem dla obiektu: dość łatwo jest umieścić DVD w zamkniętym pudełku lub szafie, a zatem usuwając jakikolwiek możliwy wpływ światła. O wiele bardziej przydatne byłoby uzyskanie płyty DVD, która jest bardziej odporna na temperaturę i wilgotność niż światło.
Ten sam zespół badawczy zbadał również rynek Blu-ray, aby sprawdzić, czy będzie jakaś marka z dobrym medium do długoterminowego przechowywania w chłodni. Oto ich odkrycie:
Przyspieszone starzenie się wilgotności i temperatury w kilku markach Blu-ray, przy tych samych parametrach, co w przypadku płyt DVD:
Światło przyspieszone starzenie w kilku markach BluRays, te same parametry:
Tłumaczenie z tego opracowania Archives de France, 2012.
Dwa streszczenia wszystkich ustaleń (w języku francuskim) tu i tutaj .
Podsumowując, najlepszy dysk Blu-ray (firmy Panasonic) działał podobnie do najlepszego DVD klasy archiwalnej w teście wilgotności + temperatura, a jednocześnie był praktycznie niewrażliwy na światło! A ta płyta Blu-ray nie jest nawet klasą archiwalną. Ponadto dyski Blu-ray używają ulepszonego kodu korekcji błędów niż dyski DVD (same używają ulepszonej wersji w stosunku do płyt CD), co dodatkowo minimalizuje ryzyko utraty danych. Wydaje się więc, że niektóre dyski BluRay mogą być bardzo dobrym wyborem do przechowywania w chłodniach.
I rzeczywiście, niektóre firmy zaczynają pracować nad dyskami Blu-ray klasy archiwalnej, o dużej gęstości, takimi jak Panasonic i Sony, ogłaszając , że będą w stanie zaoferować 300 GB do 1 TB przestrzeni dyskowej ze średnią żywotnością 50 lat. Ponadto duże firmy zwracają się w kierunku nośników optycznych do przechowywania w chłodni (ponieważ zużywa o wiele mniej zasobów, ponieważ można je przechowywać w chłodni bez żadnego zasilania elektrycznego), takich jak Facebook, który opracował zrobotyzowany system do używania dysków Blu-ray jako „zimnych” storage ” dla danych, do których system rzadko ma dostęp.
Inicjatywa archiwalna Long Now: Istnieją inne interesujące wątki, takie jak projekt Rosetta Disc z muzeum Long Now , który polega na pisaniu mikroskopowo skalowanych stron Księgi Rodzaju we wszystkich językach na Ziemi, na które przetłumaczono Księgę Rodzaju. To świetny projekt, który jako pierwszy oferuje nośnik, który pozwala na przechowywanie 50 MB na naprawdę bardzo długookresowe chłodnie (ponieważ jest napisany węglem) oraz z dostępem w przyszłości, ponieważ wystarczy tylko lupa, aby uzyskać dostęp do dane (brak dziwnych specyfikacji formatu i kłopotów technologicznych, takich jak fioletowa wiązka Blu-ray, wystarczy lupa!). Jednak nadal są one wykonywane ręcznie, a zatem szacuje się, że kosztują około 20 000 USD, co wydaje się nieco za dużo dla osobistego programu archiwizacji.
Rozwiązania internetowe: Jeszcze inne medium do przechowywania danych w sieci. Jednak rozwiązania do tworzenia kopii zapasowych w chmurze nie są odpowiednie, ponieważ głównym problemem jest to, że firmy hostingowe w chmurze mogą nie żyć tak długo, jak chcesz zachować swoje dane. Inne powody to fakt, że tworzenie kopii zapasowych jest strasznie powolne (ponieważ przesyła przez Internet), a większość dostawców wymaga, aby pliki istniały również w systemie, aby zachować je online. Na przykład zarówno CrashPlan, jak i Backblaze trwale usuwają pliki, które nie są przynajmniej raz widoczne na twoim komputerze w ciągu ostatnich 30 dni, więc jeśli chcesz przesłać dane kopii zapasowej, które przechowujesz tylko na zewnętrznych dyskach twardych, musisz podłączyć Dysk twardy USB przynajmniej raz w miesiącu i synchronizuj z chmurą, aby zresetować odliczanie. Jednak, niektóre usługi w chmurze oferują przechowywanie plików przez czas nieokreślony (o ile oczywiście płacisz) bez odliczania, na przykład SpiderOak. Dlatego należy bardzo uważać na warunki i korzystanie z wybranego rozwiązania do tworzenia kopii zapasowych w chmurze.
Alternatywą dla dostawców kopii zapasowych w chmurze jest wynajem własnego prywatnego serwera online, a jeśli to możliwe, wybierz serwer z automatycznym tworzeniem kopii lustrzanych / kopii zapasowych danych w przypadku awarii sprzętu po ich stronie (kilka z nich gwarantuje nawet ochronę przed utratą danych w ich umowach) , ale oczywiście jest droższy). To świetne rozwiązanie, po pierwsze dlatego, że nadal jesteś właścicielem swoich danych, a po drugie, ponieważ nie będziesz musiał zarządzać awariami sprzętu, jest to obowiązek twojego hosta. A jeśli pewnego dnia Twój host przestanie działać, nadal możesz odzyskać swoje dane (wybierz poważnego hosta, aby nie zamknął się w nocy, ale powiadomił Cię wcześniej, być może możesz poprosić o umieszczenie go w umowie), i ponownie hostuj gdzie indziej.
Jeśli nie chcesz konfigurować własnego prywatnego serwera internetowego i jeśli możesz sobie na to pozwolić, Amazon oferuje nową usługę archiwizacji danych o nazwie Glacier . Celem jest właśnie długoterminowe przechowywanie danych w chłodzie: w ten sposób dużo kosztuje przechowywanie danych na lodowcu, ale odzyskanie tych danych kosztuje jeszcze więcej, ponieważ ta usługa jest przeznaczona do przechowywania danych poza zasięgiem , aby nie przechowywać danych, do których chcesz często uzyskiwać dostęp. Oznacza to, że ta usługa podaje ceny za zapis danych, ale także za ich odczytanie. Ta usługa ma ogromny koszt, ale może być dobrą okazją dla niektórych najbardziej sensownych danych (np. Jeśli masz kilka plików tekstowych lub obrazów, które są BARDZO rozsądne, ponieważ dane tego rodzaju są zwykle małe, nie będzie Cię dużo kosztować za przechowywanie w lodowcu).
Niedociągnięcia w chłodniach : Istnieje jednak poważna wada w każdym chłodni: nie ma sprawdzania integralności, ponieważ chłodnie NIE MOGĄ automatycznie sprawdzić integralności danych (mogą jedynie wdrożyć schematy korekcji błędów, aby „wyleczyć” trochę uszkodzenie powstało po uszkodzeniu, ale nie można temu zapobiec ani automatycznie nim zarządzać!), ponieważ w przeciwieństwie do komputera, nie ma jednostki przetwarzania do obliczenia / zaksięgowania / sprawdzenia i poprawienia systemu plików. Podczas gdy z komputerem i wieloma jednostkami pamięci, możesz automatycznie sprawdzić integralność swoich archiwów i automatycznie utworzyć kopię lustrzaną na innej jednostce, jeśli to konieczne, jeśli nastąpi uszkodzenie w archiwum danych (o ile masz wiele kopii tego samego archiwum).
Archiwizacja długoterminowa
Nawet przy najlepszych obecnie dostępnych technologiach dane cyfrowe można przechowywać w chłodzie jedynie przez kilka dekad (około 20 lat). Dlatego na dłuższą metę nie możesz polegać tylko na chłodniach: musisz skonfigurować metodologię procesu archiwizacji danych, aby mieć pewność, że dane będą można odzyskać w przyszłości (nawet przy zmianach technologicznych) i że zminimalizujesz ryzyko utraty danych. Innymi słowy, musisz zostać cyfrowym kustoszem swoich danych, naprawiając korupcje, gdy się pojawią, i odtwarzaj nowe kopie w razie potrzeby.
Nie ma niezawodnych zasad, ale oto kilka ustalonych strategii kuratorskich , aw szczególności magiczne narzędzie, które ułatwi ci pracę:
- Zasada redundancji / replikacji : Redundancja jest jedynym narzędziem, które może odwrócić skutki entropii , która jest zasadą opartą na teorii informacji. Aby zachować dane, musisz je zduplikować. Kody błędów są dokładnie automatycznym zastosowaniem zasady redundancji. Jednak musisz również upewnić się, że Twoje dane są zbędne: wiele kopii tych samych danych na różnych dyskach, wiele kopii na różnych nośnikach (tak, że jeśli jeden nośnik ulegnie awarii z powodu wewnętrznych problemów, istnieje niewielkie prawdopodobieństwo, że inne na różnych nośnikach również ulegną awarii w tym samym czasie) itp. W szczególności , zawsze powinieneś mieć co najmniej 3 kopie danych, zwane również 3-modułową redundancją w inżynierii, aby w razie uszkodzenia kopii możesz oddać zwykłą większość głosów na naprawę plików z 3 kopii. Zawsze pamiętaj o radach żeglarza:
Przydanie dwóch kompasów jest bezużyteczne, ponieważ jeśli jeden się nie powiedzie, nigdy nie wiadomo, który z nich jest poprawny, czy też oba są błędne. Zawsze bierz jeden kompas lub więcej niż trzy.
Błąd korekty kodów : to magiczne narzędzie, które ułatwi Ci życie i zwiększy bezpieczeństwo Twoich danych. Kody korekcji błędów (ECC) to konstrukcja matematyczna, która wygeneruje dane, które można wykorzystać do naprawy danych. Jest to bardziej wydajne, ponieważ ECC mogą naprawić znacznie więcej danych przy użyciu dużo mniejszej przestrzeni dyskowej niż prosta replikacja (tj. Tworzenie wielu kopii plików), a nawet można ich użyć do sprawdzenia, czy plik ma jakieś korupcja, a nawet zlokalizuj, gdzie są te zepsucie. W rzeczywistości jest to dokładnie zastosowanie zasady redundancji, ale w bardziej sprytny sposób niż replikacja. Ta technika jest obecnie szeroko stosowana w każdej komunikacji dalekiego zasięgu, takiej jak 4G, WiMax, a nawet w komunikacji kosmicznej NASA. Niestety, mimo że ECC są wszechobecne w telekomunikacji, nie naprawiają plików, być może dlatego, że jest to trochę skomplikowane. Jednak niektóre programy są dostępne, takie jak dobrze znany (ale teraz stary) PAR2, DVD Disaster (który oferuje dodawanie kodów korekcji błędów na dyskach optycznych) i pyFileFixity (które opracowuję częściowo w celu przezwyciężenia ograniczeń i problemów PAR2). Istnieją również systemy plików, które opcjonalnie implementują Reed-Solomon, takie jak ZFS dla Linux lub ReFS dla Windows, które technicznie są uogólnieniem RAID5.
Regularnie sprawdzaj integralność swoich plików: Hashuj pliki i sprawdzaj je od czasu do czasu (tj. Raz w roku, ale zależy to od nośnika pamięci i warunków środowiskowych). Kiedy zobaczysz, że Twoje pliki uległy uszkodzeniu, nadszedł czas, aby naprawić za pomocą wygenerowanych przez Ciebie ECC, jeśli to zrobiłeś, i / lub wykonać nową świeżą kopię danych na nowym nośniku pamięci. Sprawdzanie danych, naprawa uszkodzeń i tworzenie nowych, świeżych kopii to bardzo dobry cykl kuracyjny, który zapewni bezpieczeństwo danych. W szczególności sprawdzanie jest bardzo ważne, ponieważ kopie plików mogą zostać po cichu uszkodzone, a jeśli następnie skopiujesz sfałszowane kopie, otrzymasz całkowicie uszkodzone pliki. Jest to jeszcze ważniejsze w przypadku nośników do przechowywania na zimno, takich jak dyski optyczne, które NIE MOGĄ automatycznie sprawdzić integralności danych (już implementują ECC, aby się trochę wyleczyć, ale nie mogą automatycznie sprawdzać ani tworzyć nowych świeżych kopii, to twoja praca!). Aby monitorować zmiany plików, możesz użyć skryptu rfigc.py zpyFileFixity lub inne narzędzia UNIX, takie jak md5deep . Możesz także sprawdzić stan niektórych nośników pamięci, takich jak dyski twarde, za pomocą narzędzi takich jak Hard Drive Sentinel lub open source smartmontools .
Przechowuj swoje archiwa w różnych miejscach (z co najmniej jedną kopią poza domem!), Aby uniknąć katastrofalnych zdarzeń, takich jak powódź lub pożar. Na przykład jeden dysk optyczny w pracy lub kopia zapasowa w chmurze może być dobrym pomysłem, aby spełnić ten wymóg (nawet jeśli dostawcy chmury można zamknąć w dowolnym momencie, o ile masz inne kopie, będziesz bezpieczny , dostawcy usług w chmurze będą służyć tylko jako archiwum zewnętrzne w nagłych przypadkach).
Przechowywać w specjalnych pojemnikach o kontrolowanych parametrach środowiskowych : w przypadku nośników optycznych przechowywać z dala od światła i w wodoszczelnym pudełku, aby uniknąć wilgoci. W przypadku dysków twardych i kart SD przechowuj je w tulejach antymagnetycznych, aby uniknąć resztkowej energii elektrycznej w celu manipulowania dyskiem. Możesz również przechowywać w hermetycznej i wodoodpornej torbie / pudełku i przechowywać w zamrażarce: niskie temperatury spowolnią entropię i możesz znacznie wydłużyć czas życia dowolnego takiego nośnika pamięci (po prostu upewnij się, że woda wygrała nie wejdź do środka, inaczej twoje medium szybko umrze).
Używaj sprzętu dobrej jakości i sprawdź je wcześniej (np .: kupując kartę SD, przetestuj całą kartę za pomocą oprogramowania, takiego jak HDD Scan, aby sprawdzić, czy wszystko jest w porządku przed zapisaniem danych). Jest to szczególnie ważne w przypadku napędów optycznych, ponieważ ich jakość może drastycznie zmienić jakość wypalonych dysków, jak wykazano w badaniu Archives de France (zła nagrywarka DVD wyprodukuje dyski DVD, które wytrzymają znacznie mniej).
Starannie wybieraj formaty plików: nie wszystkie formaty są odporne na uszkodzenia, niektóre nawet wyraźnie słabe. Na przykład obrazy .jpg mogą być całkowicie uszkodzone i nieczytelne przez manipulowanie tylko jednym lub dwoma bajtami. To samo dotyczy archiwów 7zip. To niedorzeczne, więc uważaj na format plików, które archiwizujesz. Zasadniczo najlepszy jest zwykły czysty tekst, ale jeśli chcesz kompresować, użyj niecałkowitego zamka błyskawicznego, a do zdjęć użyj JPEG2 (jeszcze nie open-source ...). Więcej informacji i recenzji profesjonalnych kuratorów cyfrowych tutaj , tutaj i tutaj .
Przechowuj obok archiwów danych każde oprogramowanie i specyfikacje potrzebne do odczytu danych. Pamiętaj, że specyfikacje zmieniają się szybko, dlatego w przyszłości Twoje dane mogą już nie być czytelne, nawet jeśli masz dostęp do pliku. Dlatego powinieneś preferować formaty i oprogramowanie typu open source oraz przechowywać kod źródłowy programu wraz z danymi, aby zawsze móc dostosować program z kodu źródłowego do uruchamiania z nowego systemu operacyjnego lub komputera.
Wiele innych metod i podejść jest dostępnych tutaj , tutaj oraz w różnych częściach Internetu.
Wniosek
Radzę korzystać z tego, co możesz mieć, ale zawsze przestrzegaj zasady redundancji (wykonaj 4 kopie!) I zawsze regularnie sprawdzaj integralność (więc musisz wcześniej wygenerować bazę danych skrótów MD5 / SHA1) i stworzyć nową kopie w przypadku uszkodzenia. Jeśli to zrobisz, możesz technicznie przechowywać swoje dane tak długo, jak chcesz, bez względu na to, jaki jest twój nośnik pamięci. Czas między kolejnymi sprawdzeniami zależy od niezawodności nośników pamięci: jeśli jest to dyskietka, sprawdzaj co 2 miesiące, a jeśli jest to Blu-ray HTL, sprawdzaj co 2/3 lata.
Teraz w optymalnej sytuacji radzę, aby chłodnie korzystały z dysków Blu-ray HTL lub archiwalnych dysków DVD przechowywanych w wodoszczelnych nieprzezroczystych pudełkach i przechowywanych w świeżym miejscu. Ponadto możesz używać kart SD i dostawców chmurowych, takich jak SpiderOak, do przechowywania nadmiarowych kopii danych, a nawet dysków twardych, jeśli są one dla ciebie bardziej dostępne.
Używaj wielu kodów korygujących błędy , dzięki czemu zaoszczędzisz swój dzień. Możesz także wykonać wiele kopii tych plików ECC (ale wiele kopii danych jest ważniejsze niż wiele kopii ECC, ponieważ pliki ECC mogą się same naprawić!).
Wszystkie te strategie można wdrożyć za pomocą zestawu narzędzi, które rozwijam (open source): pyFileFixity . To narzędzie zostało faktycznie uruchomione w tej dyskusji, po odkryciu, że nie było wolnego narzędzia do pełnego zarządzania poprawnością plików. Zapoznaj się także z plikiem Readme i wiki projektu, aby uzyskać więcej informacji na temat poprawności plików i ochrony danych cyfrowych.
Reasumując, naprawdę mam nadzieję, że więcej badań i rozwoju zostanie poświęconych temu problemowi. Jest to poważny problem dla naszego obecnego społeczeństwa, który ma coraz więcej danych w postaci cyfrowej, ale bez żadnej gwarancji, że ta masa informacji przetrwa dłużej niż kilka lat. To dość przygnębiające i naprawdę uważam, że ten problem powinien zostać postawiony o wiele bardziej na froncie, aby stał się punktem marketingowym dla konstruktorów i firm do tworzenia urządzeń pamięci masowej, które mogą przetrwać przyszłe pokolenia.
/ EDYCJA: przeczytaj poniżej, aby poznać praktyczną procedurę kuracji .