Szczegóły techniczne funkcji usuwania duplikatów Server 2012

Teraz, gdy system Windows Server 2012 zawiera funkcje usuwania duplikatów dla woluminów NTFS, trudno mi znaleźć szczegółowe informacje techniczne na ten temat. Mogę wywnioskować z dokumentacji TechNet, że sama akcja usuwania duplikatów jest procesem asynchronicznym - podobnie jak kiedyś działał SIS Groveler - ale nie ma praktycznie żadnych szczegółów na temat implementacji (użyte algorytmy, potrzebne zasoby, nawet informacje o wydajności Rozważania to nic innego jak kilka praktycznych rekomendacji).

Spostrzeżenia i wskazówki są bardzo mile widziane, porównanie z efektywnością usuwania duplikacji ZFS w systemie Solaris dla zestawu scenariuszy byłoby wspaniałe.

zfs windows-server-2012 deduplication

— the-wabbit
źródło

Jak podejrzewałem, jest oparty na podsystemie VSS ( źródle ), co wyjaśnia również jego asynchroniczną naturę. Fragmenty odszyfrowane są przechowywane w \System Volume Information\Dedup\ChunkStore\*, z ustawieniami w \System Volume Information\Dedup\Settings\*. Ma to znaczący wpływ na to, w jaki sposób oprogramowanie do tworzenia kopii zapasowych współdziała z takimi woluminami, co wyjaśniono w powiązanym artykule (w skrócie: bez obsługi deduplikacji twoje kopie zapasowe będą miały taki sam rozmiar, jak zawsze, przy pomocy deduplikacji będziesz tylko tworzyć kopie zapasowe znacznie mniejszy sklep dedupe).

Jeśli chodzi o zastosowane metody, najlepsze, co mogłem znaleźć, to artykuł badawczy opublikowany przez badacza Microsoft w 2011 r. ( Źródło , pełny tekst ) na konferencji Usenix FAST11. Sekcja 3.3 poświęcona jest deduplikacji w pamięci podstawowej . Wydaje się prawdopodobne, że te dane zostały wykorzystane przy opracowywaniu funkcji deduplikacji NTFS. Ten cytat został wykorzystany:

Algorytm kanoniczny dla bloków treści o zmiennej wielkości to Rabin Fingerprints [25].

W dokumencie jest wiele danych do przeszukania, ale złożoność używanego zestawu narzędzi, w połączeniu z funkcjami, które znamy już w 2012 r., Zdecydowanie sugerują, że do opracowania tych funkcji wykorzystano rozumowanie w dokumencie. Nie wiem na pewno bez artykułów msdn, ale jest to tak blisko, jak na razie możemy się spodziewać.

Porównania wydajności z ZFS będą musiały poczekać, aż testy porównawcze skończą.

— sysadmin1138
źródło

Dziękuję za referencje, chociaż muszę przyznać, że liczyłem na coś bardziej dokumentacyjnego dla funkcji, która byłaby równie sensowna jak deduplikacja pod względem wydajności, integralności danych i zużycia pamięci. Poczekajmy więc i zobaczmy.

— the-wabbit