Pytania otagowane jako apache-spark

Apache Spark to silnik rozproszonego przetwarzania danych typu open source napisany w Scali, zapewniający ujednolicony interfejs API i rozproszone zestawy danych dla użytkowników. Przypadki użycia dla Apache Spark często są związane z uczeniem maszynowym / głębokim uczeniem, przetwarzaniem wykresów.

3
Jak działa HashPartitioner?
Przeczytałem w dokumentacji HashPartitioner. Niestety nic nie zostało wyjaśnione poza wywołaniami API. Zakładam, że HashPartitionerdzieli rozproszony zestaw na podstawie skrótu kluczy. Na przykład, jeśli moje dane są podobne (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Więc partycjoner umieściłby to na różnych partycjach z tymi samymi kluczami należącymi do tej samej partycji. …

8
Jak usunąć kolumny w ramce danych pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Są dwa id: biginti chcę usunąć jeden. Jak mam to zrobić?


15
Jak połączyć PyCharm z PySpark?
Jestem nowy z Apache Spark i najwyraźniej zainstalowałem Apache-Spark z Homebrew w moim Macbooku: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more information. Using …


8
Jak zapobiec java.lang.OutOfMemoryError: PermGen space w kompilacji Scala?
Zauważyłem dziwne zachowanie mojego kompilatora Scala. Czasami podczas kompilowania klasy zgłasza OutOfMemoryError. Oto komunikat o błędzie: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space Dzieje się to tylko raz na jakiś czas, a błąd zwykle nie jest zgłaszany przy kolejnym uruchomieniu …

5
Oblicz średnią prędkość dróg [zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 3 dni temu . Poszedłem na rozmowę o pracę inżyniera danych. Ankieter zadał mi pytanie. Dał mi pewną sytuację …

2
Zakleszczenie, gdy wiele zadań iskrowych jest jednocześnie zaplanowanych
Używanie Spark 2.4.4 działającej w trybie klastra YARN z iskrowym harmonogramem FIFO. Przesyłam wiele operacji ramki danych Spark (tj. Zapisuję dane do S3) przy użyciu modułu wykonującego pulę wątków o zmiennej liczbie wątków. Działa to dobrze, jeśli mam ~ 10 wątków, ale jeśli użyję setek wątków, wydaje się, że jest …


1
Pisanie ponad 50 milionów z Pyspark df do PostgresSQL, najbardziej efektywne podejście
Jaki byłby najbardziej efektywny sposób wstawiania milionów rekordów, mówi 50 milionów z ramki danych Spark do tabel Postgres. Robiłem to od Spark do MSSQL w przeszłości, korzystając z opcji kopiowania zbiorczego i opcji wielkości partii , która również się powiodła. Czy istnieje coś podobnego dla Postgres? Dodanie kodu, który próbowałem …

3
Jak naprawić błąd „TypeError: wymagana jest liczba całkowita (mam bajty typu)” podczas próby uruchomienia pyspark po zainstalowaniu Spark 2.4.4
Zainstalowałem OpenJDK 13.0.1 oraz Python 3.8 i Spark 2.4.4. Instrukcje testowania instalacji należy uruchomić. \ Bin \ pyspark z katalogu głównego instalacji Spark. Nie jestem pewien, czy przegapiłem krok w instalacji Spark, jak ustawienie zmiennej środowiskowej, ale nie mogę znaleźć żadnych dalszych szczegółowych instrukcji. Mogę uruchomić interpreter Pythona na moim …

1
pandasUDF i pyarrow 0.15.0
Niedawno zacząłem otrzymywać błędy w wielu pysparkzadaniach uruchomionych w klastrach EMR. Errosy są java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Wszystkie wydają się występować w applyfunkcjach serii pand. …


1
Spark: UDF wykonywany wiele razy
Mam ramkę danych z następującym kodem: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Teraz sprawdzając dzienniki, dowiedziałem się, że dla każdego wiersza UDF jest wykonywany 3 razy. …

3
Zastosowanie funkcji Python do zgrupowanej Pandas DataFrame - jakie jest najbardziej efektywne podejście do przyspieszenia obliczeń?
Mam do czynienia z dość dużą Pandas DataFrame - mój zestaw danych przypomina następującą dfkonfigurację: import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.