Pytania otagowane jako apache-spark

Apache Spark to silnik rozproszonego przetwarzania danych typu open source napisany w Scali, zapewniający ujednolicony interfejs API i rozproszone zestawy danych dla użytkowników. Przypadki użycia dla Apache Spark często są związane z uczeniem maszynowym / głębokim uczeniem, przetwarzaniem wykresów.

19
importowanie pyspark w powłoce Pythona
To jest kopia czyjegoś pytania na innym forum, na które nigdy nie udzielono odpowiedzi, więc pomyślałem, że zadam je tutaj ponownie, ponieważ mam ten sam problem. (Zobacz http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Mam poprawnie zainstalowanego Spark'a na moim komputerze i jestem w stanie uruchamiać programy w Pythonie z modułami pyspark bez błędów podczas …

12
Załaduj plik CSV za pomocą Sparka
Jestem nowy w Spark i próbuję odczytać dane CSV z pliku za pomocą Spark. Oto co robię: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Spodziewałbym się, że to wywołanie da mi listę dwóch pierwszych kolumn mojego pliku, ale otrzymuję ten błąd: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out …


8
Jak nadpisać katalog wyjściowy w Spark
Mam aplikację do przesyłania strumieniowego iskier, która tworzy zestaw danych dla każdej minuty. Potrzebuję zapisać / nadpisać wyniki przetwarzanych danych. Kiedy próbowałem nadpisać zbiór danych org.apache.hadoop.mapred.FileAlreadyExistsException zatrzymuje wykonanie. Ustawiłem właściwość Spark set("spark.files.overwrite","true"), ale nie mam szczęścia. Jak nadpisać lub wstępnie usunąć pliki ze Spark?
108 apache-spark 


10
Filtruj kolumnę ramki danych Pyspark z wartością Brak
Próbuję filtrować ramkę danych PySpark, która ma Nonejako wartość wiersza: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] i mogę poprawnie filtrować za pomocą wartości ciągu: df[df.dt_mvmt == '2016-03-31'] # some results here ale to się nie udaje: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ale z pewnością są wartości …


5
jak zmienić kolumnę Dataframe z typu String na typ Double w pyspark
Mam ramkę danych z kolumną jako ciągiem. Chciałem zmienić typ kolumny na Double type w PySpark. Oto droga, którą zrobiłem: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Chciałem tylko wiedzieć, czy to właściwy sposób, aby to zrobić, ponieważ podczas przechodzenia przez regresję logistyczną dostaję jakiś błąd, więc zastanawiam się, …

4
Spark Kill Running Application
Mam uruchomioną aplikację Spark, w której zajmuje ona wszystkie rdzenie, na których moje inne aplikacje nie otrzymają żadnego zasobu. Zrobiłem kilka szybkich badań i ludzie zasugerowali użycie YARN kill lub / bin / spark-class do zabicia polecenia. Jednak używam wersji CDH i / bin / spark-class w ogóle nie istnieje, …

14
Jak załadować plik lokalny w sc.textFile, zamiast HDFS
Postępuję zgodnie ze świetnym samouczkiem dotyczącym iskier więc próbuję na 46 min: 00 s, aby załadować, README.mdale nie udaje mi się to, co robię, jest to: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = …



10
Jak skonfigurować Sparka w systemie Windows?
Próbuję skonfigurować Apache Spark w systemie Windows. Po krótkich poszukiwaniach rozumiem, że tryb samodzielny jest tym, czego chcę. Jakie pliki binarne należy pobrać, aby uruchomić Apache Spark w systemie Windows? Widzę dystrybucje z hadoopem i cdh na stronie pobierania Spark. Nie mam w sieci odniesień do tego. Bardzo cenny jest …

16
Spark - Błąd „Główny adres URL musi być ustawiony w konfiguracji” podczas przesyłania aplikacji
Mam aplikację Spark, która działa bez problemu w trybie lokalnym, ale mam pewne problemy podczas przesyłania do klastra Spark. Komunikaty o błędzie są następujące: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.