Alternatywy dla hdf5


16

Korzystam z HDF5 od lat, ale wraz ze wzrostem rozmiaru zbioru danych zaczynam doświadczać tych samych problemów wymienionych tutaj

http://cyrille.rossant.net/moving-away-hdf5/

Czy możesz wskazać mi format taki jak HDF5 z - Dobra obsługa zapisu równoległego - Obsługa dostępu fragmentarycznego wielkich matryc

Mój typowy przypadek użycia to macierz liczb całkowitych 100k x 100k. Chciałbym mieć go jako cały plik z logicznego punktu widzenia, ale muszę napisać go kawałek po kawałku z równoległymi robotami.


3
Czy możesz wyjaśnić, jakie zestawy danych musisz wyeksportować? Może to być pomocne dla osób, które chcą odpowiedzieć na twoje pytanie. Rozważyłem HDF5, a także netcfd. Ale mogą one być bardziej ukierunkowane na określone zestawy danych.
Charles

2
Skompresowany VTK obsługuje porcje. Możesz zapisać wiele plików równolegle i połączyć je ze sobą za pomocą pliku meta PVD. Jaki jest rozmiar twojego zestawu danych?
Krzysztof Bzowski

Po wprowadzeniu zmian fragmentaryczny VTK nie jest dobrą decyzją.
Krzysztof Bzowski,

Czego skończyłeś?
aidan.plenert.macdonald

@ aidan.penert.macdonald Trzymałem hdf5, używając zapisu równoległego z MPI. Ale musiałem porzucić Python
MG,

Odpowiedzi:


7

HDF5 jest do pewnego stopnia systemem plików. Wprowadzając B-Drzewa i sposób zarządzania blokami, powiela funkcjonalność systemu plików. Podczas uruchamiania kodu prawdopodobnie działa on na systemie operacyjnym ze sprawdzonym i skalowalnym systemem plików. Dlatego sugerowałbym zapisanie liczbowych nieprzetworzonych danych w jednym pliku przy użyciu dostępu do nieprzetworzonych plików lub MPI-IO i zapisanie metadanych (endianess, rozmiar, atrybuty itp.) W osobnym pliku JSON lub XML. Jeśli masz wiele zestawów danych, możesz je uporządkować w katalogu lub hierarchii katalogów. Jeśli chcesz rozpowszechnić zestaw danych, musisz tylko spakować go do pliku ZIP.

Jedynym minusem jest to, że musisz sobie radzić z Endianness , co jednak nie jest trudne .

Aby dowiedzieć się, jak to zrobić, zobacz Dragly i in. glin. „A. Eksperymentalna struktura katalogów (Exdir): alternatywa dla HDF5 bez wprowadzenia nowego formatu plików” Front. Neuroinform., 2018, 12 .

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.