Pytania otagowane jako rdd


13
Spark - repartition () vs coalesce ()
Według Learning Spark Pamiętaj, że podział danych na partycje jest dość kosztowną operacją. Spark ma również zoptymalizowaną wersję repartition()wywołania, coalesce()która pozwala uniknąć przenoszenia danych, ale tylko wtedy, gdy zmniejsza się liczbę partycji RDD. Jedną różnicą, którą dostaję, jest to, że wraz repartition()z liczbą partycji można zwiększać / zmniejszać, ale z …


2
Wydajność Spark dla Scala vs Python
Wolę Pythona od Scali. Ale ponieważ Spark jest natywnie napisany w Scali, spodziewałem się, że mój kod będzie działał szybciej w Scali niż wersja Python z oczywistych powodów. Mając to założenie, pomyślałem, że powinienem nauczyć się i napisać wersję Scala jakiegoś bardzo powszechnego kodu do wstępnego przetwarzania dla około 1 …

5
(Dlaczego) musimy wywołać pamięć podręczną lub pozostać na RDD
Kiedy elastyczny rozproszony zestaw danych (RDD) jest tworzony z pliku tekstowego lub kolekcji (lub z innego RDD), czy musimy jawnie wywoływać „pamięć podręczną” lub „utrwalanie”, aby przechowywać dane RDD w pamięci? A może dane RDD są domyślnie przechowywane w pamięci w sposób rozproszony? val textFile = sc.textFile("/user/emp.txt") Zgodnie z moim …
171 scala  apache-spark  rdd 

3
Apache Spark: map vs mapPartitions?
Jaka jest różnica między RDD map a mapPartitionsmetodą? I flatMapzachowuje się jak maplub jak mapPartitions? Dzięki. (edytuj) tj. jaka jest różnica (semantycznie lub pod względem wykonania) między def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- …



3
Jak działa HashPartitioner?
Przeczytałem w dokumentacji HashPartitioner. Niestety nic nie zostało wyjaśnione poza wywołaniami API. Zakładam, że HashPartitionerdzieli rozproszony zestaw na podstawie skrótu kluczy. Na przykład, jeśli moje dane są podobne (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Więc partycjoner umieściłby to na różnych partycjach z tymi samymi kluczami należącymi do tej samej partycji. …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.