Pytania otagowane jako parquet


7
Avro vs. Parquet
Planuję użyć jednego z formatów pliku hadoop dla mojego projektu związanego z hadoopem. Rozumiem, że parkiet jest skuteczny w przypadku zapytań opartych na kolumnach i avro dla pełnego skanowania lub gdy potrzebujemy wszystkich danych z kolumn! Zanim przejdę dalej i wybiorę jeden z formatów plików, chcę zrozumieć, jakie są wady …
92 hadoop  avro  parquet 

1
Jakie są różnice między piórami a parkietem?
Oba są kolumnowymi (dyskowymi) formatami pamięci do użytku w systemach analizy danych. Oba są zintegrowane z Apache Arrow ( pyarrow pakiet dla Pythona) i są zaprojektowane tak, aby odpowiadały Arrow jako kolumna warstwa analityczna w pamięci. Czym różnią się oba formaty? Czy podczas pracy z pandami zawsze powinieneś preferować pióra, …

5
Parkiet vs ORC vs ORC z Snappy
Przeprowadzam kilka testów na formatach przechowywania dostępnych w Hive i używam Parquet i ORC jako głównych opcji. Raz włączyłem ORC z domyślną kompresją, a raz ze Snappy. Przeczytałem wiele dokumentów, w których stwierdzono, że Parquet jest lepszy pod względem złożoności czasowo-przestrzennej w porównaniu z ORC, ale moje testy są odwrotne …
87 hadoop  hive  parquet  snappy  orc 
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.