Odpowiedzi:
Sprawdź system plików lessFS, deduplikacja danych dla systemu Linux. Nadal jest w fazie beta, ale możesz go wypróbować:
Pozdrowienia,
MV
Deduplikacja nadchodzi do ZFS na OpenSolaris, ale ta funkcja nie jest obecnie dostępna.
Został prototypowany przez Jeffa Bonwicka i Billa Moore'a ostatniej zimy i pracują nad jego integracją tego lata. Powinien być dostępny w następnej wersji OpenSolaris lub wcześniej, jeśli chcesz bawić się z gałęzią programistów.
Dla osób, które mogą nie być zaznajomione z deduplikacją danych, jest to technika, w której dane są analizowane na poziomie pliku (lub bloku, jak sądzę) i gdzie identyczne pliki / bloki w całym systemie plików są zastępowane mniejszym tokenem. Powoduje to znaczne zmniejszenie efektywnego rozmiaru dysku. Można to uznać za formę kopiowania na piśmie . Przeczytaj na niej stronę wiki .
W systemie Linux nie ma systemu plików, o którym słyszałem, że mógłby to zrobić na poziomie deduplikacji, pliku lub bloku. Taka bestia byłaby przydatna, choć dość intensywnie obciążająca procesor.
Rok później, ale oto rozwiązanie dla OpenBSD o nazwie Epitome: http://www.peereboom.us/epitome/ . Pod warunkiem, że jest to liberalne licencjonowanie, może równie dobrze dostać się do jądra Linuksa.
Właśnie opublikowałem projekt, nad którym pracowałem, który zawiera wbudowaną deduplikację. Jeśli jesteś zainteresowany, możesz na to spojrzeć tutaj . Opiera się na bezpieczniku i działa na systemie Linux.
Nie znam żadnych darmowych implementacji deduplikacji dla Linuksa. Widziałem niektórych dostawców pamięci masowych, którzy zalecają korzystanie z systemu HSM (hierarchiczne zarządzanie pamięcią masową) z VTL (Virtual Storage Library), która nie działa.
Możesz również rozważyć system podobny do Occariny , który nie jest przejrzysty, ale może zapewnić lepsze wyniki niż deduplikacja.
więc ... brak wiadomości o deduplikacji w systemie Linux? opendedup może być wyborem, ale biorąc pod uwagę platformę Java, na której działa, nie chcę mieć bólów głowy. Próbowałem tak, ale ta maszyna Java i reszta nie radzą sobie dobrze z moimi potrzebami w zakresie czasu przechowywania i bezpieczeństwa.
Opcja deduplikacji jest dostępna w systemie Linux na systemach plików BTRFS i ZFS. BTRFS jest natywnie rozwijany pod Linuksem i ma narzędzie do deduplikacji off-line. Nie myślę „offline”, musisz umount fs. Offline oznacza, że aktywnie zapisywane dane nie są deduplikowane. Ale później uruchomisz narzędzie do deduplikacji myśli zapisanych teraz. Właściwie prawdopodobnie narzędzie jest w fazie beta. Innym sposobem jest wewnątrz ZFS. Dostępny jako BEZPIECZNIK i natywnie: http://zfsonlinux.org/ . To robi deduplikację online, niestety to spowolnienie pisze, ponieważ wszystko musi być obliczone w locie. Możesz online wyłączyć i na to zachowanie. Po wyłączeniu deduplikacji wszystkie deduplikowane dane będą nadal przechowywane jako deduplikowane. Nowe zapisy będą przechowywane jako „zduplikowane”. Jeśli chcesz deduplikować te dane w przyszłości, musisz włączyć deduplikację i przepisać wszystkie „zduplikowane” pliki.
Zobacz dokument dostępny na stronie. Aby przyspieszyć zapisy i odczyty, możesz dodać szybsze urządzenia do puli pamięci (szczególnie dyski SDD lub może szybsze flashowanie USB, zwracaj uwagę na niezawodność urządzenia).
DRBD właśnie to robi i robi to naprawdę dobrze! Może zrobić Master / Slave lub Master / Master :-)