Pytania otagowane jako apache-spark

Apache Spark to silnik rozproszonego przetwarzania danych typu open source napisany w Scali, zapewniający ujednolicony interfejs API i rozproszone zestawy danych dla użytkowników. Przypadki użycia dla Apache Spark często są związane z uczeniem maszynowym / głębokim uczeniem, przetwarzaniem wykresów.


13
Spark - repartition () vs coalesce ()
Według Learning Spark Pamiętaj, że podział danych na partycje jest dość kosztowną operacją. Spark ma również zoptymalizowaną wersję repartition()wywołania, coalesce()która pozwala uniknąć przenoszenia danych, ale tylko wtedy, gdy zmniejsza się liczbę partycji RDD. Jedną różnicą, którą dostaję, jest to, że wraz repartition()z liczbą partycji można zwiększać / zmniejszać, ale z …


12
Spark java.lang.OutOfMemoryError: Przestrzeń sterty Java
Mój klaster: 1 master, 11 slave, każdy węzeł ma 6 GB pamięci. Moje ustawienia: spark.executor.memory=4g, Dspark.akka.frameSize=512 Oto problem: Najpierw odczytałem niektóre dane (2,19 GB) z HDFS na RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Po drugie , zrób coś na tym RDD: val res = imageBundleRDD.map(data => { val desPoints = threeDReconstruction(data._2, …

7
Nie można serializować zadania: java.io.NotSerializableException podczas wywoływania funkcji poza zamknięciem tylko dla klas, a nie obiektów
Dziwne zachowanie podczas wywoływania funkcji poza zamknięciem: kiedy funkcja jest w obiekcie, wszystko działa gdy funkcja jest w klasie, uzyskaj: Nie można serializować zadania: java.io.NotSerializableException: testowanie Problem polega na tym, że potrzebuję mojego kodu w klasie, a nie w obiekcie. Jakiś pomysł dlaczego tak się dzieje? Czy obiekt Scala jest …

2
Co to są pracownicy, wykonawcy, rdzenie w klastrze Spark Standalone?
Przeczytałem Omówienie trybu klastrowego i nadal nie rozumiem różnych procesów w klastrze autonomicznym Spark i równoległości. Czy pracownik jest procesem JVM, czy nie? Uruchomiłem bin\start-slave.shi okazało się, że spawnował on robot, którym w rzeczywistości jest JVM. Zgodnie z powyższym linkiem, executor jest procesem uruchomionym dla aplikacji w węźle pracownika, który …


13
Jak wyświetlić pełną zawartość kolumny w ramce danych Spark?
Korzystam z Spark-CSV do ładowania danych do DataFrame. Chcę zrobić proste zapytanie i wyświetlić zawartość: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col wydaje się być obcięty: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

13
Jak zmienić nazwy kolumn ramki danych w pyspark?
Pochodzę z tła pand i jestem przyzwyczajony do czytania danych z plików CSV do ramki danych, a następnie po prostu zmieniając nazwy kolumn na coś użytecznego za pomocą prostego polecenia: df.columns = new_column_name_list Jednak to samo nie działa w ramkach danych pyspark utworzonych za pomocą sqlContext. Jedynym rozwiązaniem, które udało …

8
Apache Spark: liczba rdzeni w porównaniu z liczbą wykonawców
Próbuję zrozumieć związek między liczbą rdzeni i liczbą wykonawców podczas uruchamiania zadania Spark w YARN. Środowisko testowe wygląda następująco: Liczba węzłów danych: 3 Specyfikacja maszyny węzła danych: Procesor: Core i7-4790 (liczba rdzeni: 4, liczba wątków: 8) RAM: 32 GB (8 GB x 4) HDD: 8 TB (2 TB x 4) …

20
Jak zatrzymać wyświetlanie komunikatów INFO na konsoli Spark?
Chciałbym zatrzymać różne komunikaty, które pojawiają się w powłoce iskry. Próbowałem edytować log4j.propertiesplik, aby zatrzymać te komunikaty. Oto zawartość log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN …

10
Jak odczytać wiele plików tekstowych w jednym RDD?
Chcę odczytać kilka plików tekstowych z lokalizacji hdfs i wykonać mapowanie w iteracji za pomocą Spark. JavaRDD<String> records = ctx.textFile(args[1], 1); jest w stanie odczytać tylko jeden plik na raz. Chcę odczytać więcej niż jeden plik i przetworzyć je jako pojedynczy RDD. W jaki sposób?
179 apache-spark 

2
Wydajność Spark dla Scala vs Python
Wolę Pythona od Scali. Ale ponieważ Spark jest natywnie napisany w Scali, spodziewałem się, że mój kod będzie działał szybciej w Scali niż wersja Python z oczywistych powodów. Mając to założenie, pomyślałem, że powinienem nauczyć się i napisać wersję Scala jakiegoś bardzo powszechnego kodu do wstępnego przetwarzania dla około 1 …

5
(Dlaczego) musimy wywołać pamięć podręczną lub pozostać na RDD
Kiedy elastyczny rozproszony zestaw danych (RDD) jest tworzony z pliku tekstowego lub kolekcji (lub z innego RDD), czy musimy jawnie wywoływać „pamięć podręczną” lub „utrwalanie”, aby przechowywać dane RDD w pamięci? A może dane RDD są domyślnie przechowywane w pamięci w sposób rozproszony? val textFile = sc.textFile("/user/emp.txt") Zgodnie z moim …
171 scala  apache-spark  rdd 

6
Dodaj słoiki do pracy Spark - przesyłanie iskier
To prawda ... dużo o tym dyskutowano. Istnieje jednak wiele niejasności, a niektóre z udzielonych odpowiedzi ... w tym powielanie odniesień do jar w konfiguracji lub opcjach jars / executor / sterownik. Niejednoznaczne i / lub pominięte szczegóły W związku z niejednoznacznością, niejasnymi i / lub pominiętymi szczegółami należy wyjaśnić …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.