Jestem doktorantem geofizyki i pracuję z dużą ilością danych obrazu (setki GB, dziesiątki tysięcy plików). Znam svn
i git
dość dobrze i doceniać historię projektu, w połączeniu ze zdolnością do łatwo pracować razem i mieć ochronę przed uszkodzeniem dysku. Uważam git
również za bardzo pomocny w utrzymywaniu spójnych kopii zapasowych, ale wiem, że git nie może efektywnie obsługiwać dużych ilości danych binarnych.
W ramach studiów magisterskich pracowałem nad zestawami danych o podobnej wielkości (także obrazach) i miałem wiele problemów ze śledzeniem różnych wersji na różnych serwerach / urządzeniach. Różnicowanie 100 GB przez sieć naprawdę nie jest fajne i kosztowało mnie dużo czasu i wysiłku.
Wiem, że inni w nauce mają podobne problemy, ale nie mogłem znaleźć dobrego rozwiązania.
Chcę korzystać z urządzeń pamięci masowej mojego instytutu, więc potrzebuję czegoś, co może wykorzystać „głupi” serwer. Chciałbym również mieć dodatkową kopię zapasową na przenośnym dysku twardym, ponieważ w miarę możliwości chciałbym unikać przesyłania setek GB przez sieć. Potrzebuję więc narzędzia, które może obsłużyć więcej niż jedną zdalną lokalizację.
Wreszcie naprawdę potrzebuję czegoś, z czego mógłby skorzystać inny badacz, więc nie musi to być bardzo proste, ale powinno być możliwe do nauczenia się za kilka godzin.
Oceniłem wiele różnych rozwiązań, ale żadne nie wydaje się pasować do rachunku:
- svn jest nieco nieefektywny i wymaga inteligentnego serwera
- hg bigfile / largefile może używać tylko jednego pilota
- git bigfile / media może również używać tylko jednego pilota, ale również nie jest bardzo wydajny
- strych nie wydaje się mieć dziennika ani innych możliwości
- bup wygląda naprawdę dobrze, ale do działania potrzebuje „inteligentnego” serwera
Próbowałem git-annex
, co robi wszystko, czego potrzebuję (i wiele więcej), ale jest bardzo trudny w użyciu i nie jest dobrze udokumentowany. Używałem go od kilku dni i nie mogłem go obejść, więc wątpię, czy jakikolwiek inny współpracownik byłby zainteresowany.
Jak badacze radzą sobie z dużymi zbiorami danych i z czego korzystają inne grupy badawcze?
Dla jasności interesuje mnie przede wszystkim sposób, w jaki inni badacze radzą sobie z tą sytuacją, a nie tylko ten konkretny zestaw danych. Wydaje mi się, że prawie każdy powinien mieć ten problem, ale nie znam nikogo, kto go rozwiązał. Czy powinienem po prostu zachować kopię zapasową oryginalnych danych i zapomnieć o tych wszystkich kontrolach wersji? Czy to właśnie robią wszyscy inni?