Pytania otagowane jako apache-spark-sql

Apache Spark SQL to narzędzie do „przetwarzania SQL i danych strukturalnych” w Spark, szybkim i uniwersalnym systemie przetwarzania klastrów. Może być używany do pobierania danych z Hive, Parquet itp. Oraz do uruchamiania zapytań SQL na istniejących RDD i Datasets.

5
Spark DataFrame groupBy i sortuj w kolejności malejącej (pyspark)
Używam pyspark (Python 2.7.9 / Spark 1.3.1) i mam Dataframe GroupObject, którą muszę filtrować i sortować w kolejności malejącej. Próbuję to osiągnąć za pomocą tego fragmentu kodu. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Ale generuje następujący błąd. sort() got an unexpected keyword argument 'ascending'




8
Jak usunąć kolumny w ramce danych pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Są dwa id: biginti chcę usunąć jeden. Jak mam to zrobić?


1
Pisanie ponad 50 milionów z Pyspark df do PostgresSQL, najbardziej efektywne podejście
Jaki byłby najbardziej efektywny sposób wstawiania milionów rekordów, mówi 50 milionów z ramki danych Spark do tabel Postgres. Robiłem to od Spark do MSSQL w przeszłości, korzystając z opcji kopiowania zbiorczego i opcji wielkości partii , która również się powiodła. Czy istnieje coś podobnego dla Postgres? Dodanie kodu, który próbowałem …

1
Spark: UDF wykonywany wiele razy
Mam ramkę danych z następującym kodem: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Teraz sprawdzając dzienniki, dowiedziałem się, że dla każdego wiersza UDF jest wykonywany 3 razy. …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.