Pytania otagowane jako pyspark

Interfejs API Spark Python (PySpark) udostępnia model programowania Apache-Spark w języku Python.

13
Jak zmienić nazwy kolumn ramki danych w pyspark?
Pochodzę z tła pand i jestem przyzwyczajony do czytania danych z plików CSV do ramki danych, a następnie po prostu zmieniając nazwy kolumn na coś użytecznego za pomocą prostego polecenia: df.columns = new_column_name_list Jednak to samo nie działa w ramkach danych pyspark utworzonych za pomocą sqlContext. Jedynym rozwiązaniem, które udało …

2
Wydajność Spark dla Scala vs Python
Wolę Pythona od Scali. Ale ponieważ Spark jest natywnie napisany w Scali, spodziewałem się, że mój kod będzie działał szybciej w Scali niż wersja Python z oczywistych powodów. Mając to założenie, pomyślałem, że powinienem nauczyć się i napisać wersję Scala jakiegoś bardzo powszechnego kodu do wstępnego przetwarzania dla około 1 …

15
Jak wyłączyć logowanie INFO w Spark?
Zainstalowałem Sparka za pomocą przewodnika AWS EC2 i mogę poprawnie uruchomić program za pomocą bin/pysparkskryptu, aby dostać się do podpowiedzi iskry, a także mogę pomyślnie wykonać przewodnik Szybki start. Jednak do końca życia nie mogę wymyślić, jak zatrzymać wszystkie szczegółowe INFOrejestrowanie po każdym poleceniu. Wypróbowałem prawie każdy możliwy scenariusz w …

2
Jak dodać stałą kolumnę w Spark DataFrame?
Chcę dodać kolumnę DataFramez dowolną wartością (taką samą dla każdego wiersza). Pojawia się błąd, gdy używam withColumnw następujący sposób: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

9
Jak dodać nową kolumnę do Spark DataFrame (przy użyciu PySpark)?
Mam Spark DataFrame (przy użyciu PySpark 1.5.1) i chciałbym dodać nową kolumnę. Próbowałem następujących bez powodzenia: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Wystąpił również błąd podczas używania tego: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Jak więc dodać nową kolumnę …

19
importowanie pyspark w powłoce Pythona
To jest kopia czyjegoś pytania na innym forum, na które nigdy nie udzielono odpowiedzi, więc pomyślałem, że zadam je tutaj ponownie, ponieważ mam ten sam problem. (Zobacz http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Mam poprawnie zainstalowanego Spark'a na moim komputerze i jestem w stanie uruchamiać programy w Pythonie z modułami pyspark bez błędów podczas …

12
Załaduj plik CSV za pomocą Sparka
Jestem nowy w Spark i próbuję odczytać dane CSV z pliku za pomocą Spark. Oto co robię: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Spodziewałbym się, że to wywołanie da mi listę dwóch pierwszych kolumn mojego pliku, ale otrzymuję ten błąd: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out …


10
Filtruj kolumnę ramki danych Pyspark z wartością Brak
Próbuję filtrować ramkę danych PySpark, która ma Nonejako wartość wiersza: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] i mogę poprawnie filtrować za pomocą wartości ciągu: df[df.dt_mvmt == '2016-03-31'] # some results here ale to się nie udaje: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ale z pewnością są wartości …

5
jak zmienić kolumnę Dataframe z typu String na typ Double w pyspark
Mam ramkę danych z kolumną jako ciągiem. Chciałem zmienić typ kolumny na Double type w PySpark. Oto droga, którą zrobiłem: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Chciałem tylko wiedzieć, czy to właściwy sposób, aby to zrobić, ponieważ podczas przechodzenia przez regresję logistyczną dostaję jakiś błąd, więc zastanawiam się, …

4
Spark Kill Running Application
Mam uruchomioną aplikację Spark, w której zajmuje ona wszystkie rdzenie, na których moje inne aplikacje nie otrzymają żadnego zasobu. Zrobiłem kilka szybkich badań i ludzie zasugerowali użycie YARN kill lub / bin / spark-class do zabicia polecenia. Jednak używam wersji CDH i / bin / spark-class w ogóle nie istnieje, …

5
Spark DataFrame groupBy i sortuj w kolejności malejącej (pyspark)
Używam pyspark (Python 2.7.9 / Spark 1.3.1) i mam Dataframe GroupObject, którą muszę filtrować i sortować w kolejności malejącej. Próbuję to osiągnąć za pomocą tego fragmentu kodu. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ale generuje następujący błąd. sort() got an unexpected keyword argument 'ascending'

18
Jak ustawić wersję sterownika w języku Python w Spark?
Używam Spark 1.4.0-rc2, więc mogę używać Pythona 3 z Spark. Jeśli dodam export PYSPARK_PYTHON=python3do mojego pliku .bashrc, mogę uruchomić Spark interaktywnie z Pythonem 3. Jednak jeśli chcę uruchomić samodzielny program w trybie lokalnym, pojawia się błąd: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark …

9
pokaż różne wartości kolumn w pyspark dataframe: python
Proszę zasugerować alternatywną ramkę danych pyspark dla Pand df['col'].unique(). Chcę wymienić wszystkie unikalne wartości w kolumnie dataframe pyspark. Nie sposób typu SQL (szablon rejestru, a następnie zapytanie SQL dla różnych wartości). Również nie potrzebuję groupby->countDistinct, zamiast tego chcę sprawdzić różne WARTOŚCI w tej kolumnie.


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.