Próbuję zainstalować Sparka na moim Macu. Użyłem domowego naparu do zainstalowania Spark 2.4.0 i Scali. Zainstalowałem PySpark w moim środowisku anaconda i używam PyCharm do programowania. Wyeksportowałem do mojego profilu bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH Jednak nie mogę zmusić go …
Jestem nowy z Apache Spark i najwyraźniej zainstalowałem Apache-Spark z Homebrew w moim Macbooku: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more information. Using …
Mam ramkę danych pyspark daty z kolumną typu string w formacie MM-dd-yyyyi próbuję przekonwertować ją na kolumnę daty. Próbowałem: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() i otrzymuję ciąg wartości null. Czy ktoś może pomóc?
Aby porównać wydajność Spark przy użyciu Pythona i Scali, stworzyłem to samo zadanie w obu językach i porównałem środowisko wykonawcze. Spodziewałem się, że obie prace zajmą mniej więcej tyle samo czasu, ale praca w Pythonie trwała tylko 27min, podczas gdy praca w Scali trwała 37min(prawie 40% dłużej!). Zaimplementowałem również tę …
Jaki byłby najbardziej efektywny sposób wstawiania milionów rekordów, mówi 50 milionów z ramki danych Spark do tabel Postgres. Robiłem to od Spark do MSSQL w przeszłości, korzystając z opcji kopiowania zbiorczego i opcji wielkości partii , która również się powiodła. Czy istnieje coś podobnego dla Postgres? Dodanie kodu, który próbowałem …
Zainstalowałem OpenJDK 13.0.1 oraz Python 3.8 i Spark 2.4.4. Instrukcje testowania instalacji należy uruchomić. \ Bin \ pyspark z katalogu głównego instalacji Spark. Nie jestem pewien, czy przegapiłem krok w instalacji Spark, jak ustawienie zmiennej środowiskowej, ale nie mogę znaleźć żadnych dalszych szczegółowych instrukcji. Mogę uruchomić interpreter Pythona na moim …
Niedawno zacząłem otrzymywać błędy w wielu pysparkzadaniach uruchomionych w klastrach EMR. Errosy są java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Wszystkie wydają się występować w applyfunkcjach serii pand. …
Badam zachowanie Sparka, gdy dołączam do stołu do siebie. Używam Databricks. Mój fikcyjny scenariusz to: Odczytaj zewnętrzną tabelę jako ramkę danych A (pliki bazowe są w formacie delta) Zdefiniuj ramkę danych B jako ramkę danych A z wybranymi tylko niektórymi kolumnami Połącz ramki danych A i B w kolumnie 1 …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.