Programowanie pyspark

11

Błąd Spark - nieobsługiwana wersja główna pliku klasy

Próbuję zainstalować Sparka na moim Macu. Użyłem domowego naparu do zainstalowania Spark 2.4.0 i Scali. Zainstalowałem PySpark w moim środowisku anaconda i używam PyCharm do programowania. Wyeksportowałem do mojego profilu bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH Jednak nie mogę zmusić go …

83 java python macos apache-spark pyspark

8

Jak usunąć kolumny w ramce danych pyspark

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Są dwa id: biginti chcę usunąć jeden. Jak mam to zrobić?

82 apache-spark apache-spark-sql pyspark

15

Jak połączyć PyCharm z PySpark?

Jestem nowy z Apache Spark i najwyraźniej zainstalowałem Apache-Spark z Homebrew w moim Macbooku: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more information. Using …

81 python apache-spark pyspark pycharm homebrew

6

Konwertuj ciąg pyspark na format daty

Mam ramkę danych pyspark daty z kolumną typu string w formacie MM-dd-yyyyi próbuję przekonwertować ją na kolumnę daty. Próbowałem: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() i otrzymuję ciąg wartości null. Czy ktoś może pomóc?

80 apache-spark pyspark apache-spark-sql pyspark-sql

2

Spark: Dlaczego Python znacznie przewyższa Scalę w moim przypadku użycia?

Aby porównać wydajność Spark przy użyciu Pythona i Scali, stworzyłem to samo zadanie w obu językach i porównałem środowisko wykonawcze. Spodziewałem się, że obie prace zajmą mniej więcej tyle samo czasu, ale praca w Pythonie trwała tylko 27min, podczas gdy praca w Scali trwała 37min(prawie 40% dłużej!). Zaimplementowałem również tę …

16 python scala apache-spark pyspark

1

Pisanie ponad 50 milionów z Pyspark df do PostgresSQL, najbardziej efektywne podejście

Jaki byłby najbardziej efektywny sposób wstawiania milionów rekordów, mówi 50 milionów z ramki danych Spark do tabel Postgres. Robiłem to od Spark do MSSQL w przeszłości, korzystając z opcji kopiowania zbiorczego i opcji wielkości partii , która również się powiodła. Czy istnieje coś podobnego dla Postgres? Dodanie kodu, który próbowałem …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

3

Jak naprawić błąd „TypeError: wymagana jest liczba całkowita (mam bajty typu)” podczas próby uruchomienia pyspark po zainstalowaniu Spark 2.4.4

Zainstalowałem OpenJDK 13.0.1 oraz Python 3.8 i Spark 2.4.4. Instrukcje testowania instalacji należy uruchomić. \ Bin \ pyspark z katalogu głównego instalacji Spark. Nie jestem pewien, czy przegapiłem krok w instalacji Spark, jak ustawienie zmiennej środowiskowej, ale nie mogę znaleźć żadnych dalszych szczegółowych instrukcji. Mogę uruchomić interpreter Pythona na moim …

16 apache-spark pyspark

1

pandasUDF i pyarrow 0.15.0

Niedawno zacząłem otrzymywać błędy w wielu pysparkzadaniach uruchomionych w klastrach EMR. Errosy są java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Wszystkie wydają się występować w applyfunkcjach serii pand. …

12 pandas apache-spark pyspark pyarrow

1

Apache Spark: wpływ repartycjonowania, sortowania i buforowania na złączenie

Badam zachowanie Sparka, gdy dołączam do stołu do siebie. Używam Databricks. Mój fikcyjny scenariusz to: Odczytaj zewnętrzną tabelę jako ramkę danych A (pliki bazowe są w formacie delta) Zdefiniuj ramkę danych B jako ramkę danych A z wybranymi tylko niektórymi kolumnami Połącz ramki danych A i B w kolumnie 1 …

10 apache-spark pyspark bigdata azure-databricks delta-lake

Pytania otagowane jako pyspark