Programowanie apache-spark-sql

15

Różnica między DataFrame, zestawem danych i RDD w Spark

Zastanawiam się tylko, jaka jest różnica między RDDi DataFrame (Spark 2.0.0 DataFrame to zwykły alias typu Dataset[Row]) w Apache Spark? Czy potrafisz konwertować jeden na drugi?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

23

Jak mogę zmienić typy kolumn w DataFrame platformy Spark SQL?

Załóżmy, że robię coś takiego: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

152 scala apache-spark apache-spark-sql

6

Jak sortować według kolumn w kolejności malejącej w Spark SQL?

Próbowałem, df.orderBy("col1").show(10)ale posortowano w kolejności rosnącej. df.sort("col1").show(10)sortuje również w porządku malejącym. Spojrzałem na stackoverflow i wszystkie odpowiedzi, które znalazłem, były nieaktualne lub odnosiły się do RDD . Chciałbym użyć natywnej ramki danych w Spark.

145 scala apache-spark apache-spark-sql

8

Jak wybrać pierwszy wiersz każdej grupy?

Mam DataFrame wygenerowaną w następujący sposób: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Wyniki wyglądają następująco: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

14

Spark - załadować plik CSV jako DataFrame?

Chciałbym przeczytać plik CSV w Spark i przekonwertować go na DataFrame i zapisać w HDFS z df.registerTempTable("table_name") Próbowałem: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Błąd, który otrzymałem: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) …

141 scala apache-spark hadoop apache-spark-sql hdfs

11

Jak przekonwertować obiekt rdd na ramkę danych w programie Spark

Jak mogę przekonwertować RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) na Dataframe org.apache.spark.sql.DataFrame. Przekonwertowałem ramkę danych na rdd za pomocą .rdd. Po przetworzeniu chcę go z powrotem w ramce danych. W jaki sposób mogę to zrobić ?

139 scala apache-spark apache-spark-sql rdd

2

Jak dodać stałą kolumnę w Spark DataFrame?

Chcę dodać kolumnę DataFramez dowolną wartością (taką samą dla każdego wiersza). Pojawia się błąd, gdy używam withColumnw następujący sposób: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

137 python apache-spark dataframe pyspark apache-spark-sql

9

Jak dodać nową kolumnę do Spark DataFrame (przy użyciu PySpark)?

Mam Spark DataFrame (przy użyciu PySpark 1.5.1) i chciałbym dodać nową kolumnę. Próbowałem następujących bez powodzenia: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Wystąpił również błąd podczas używania tego: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Jak więc dodać nową kolumnę …

130 python apache-spark dataframe pyspark apache-spark-sql

5

Jak zdefiniować partycjonowanie DataFrame?

Zacząłem używać Spark SQL i DataFrames w Spark 1.4.0. Chcę zdefiniować niestandardowy partycjoner w DataFrames w Scali, ale nie widzę, jak to zrobić. Jedna z tabel danych, z którymi pracuję, zawiera listę transakcji według konta, jak w poniższym przykładzie. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase …

128 scala apache-spark dataframe apache-spark-sql partitioning

14

Połącz kolumny w Apache Spark DataFrame

Jak połączyć dwie kolumny w ramce danych Apache Spark? Czy w Spark SQL jest jakaś funkcja, której możemy użyć?

117 sql apache-spark dataframe apache-spark-sql

10

Filtruj kolumnę ramki danych Pyspark z wartością Brak

Próbuję filtrować ramkę danych PySpark, która ma Nonejako wartość wiersza: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] i mogę poprawnie filtrować za pomocą wartości ciągu: df[df.dt_mvmt == '2016-03-31'] # some results here ale to się nie udaje: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Ale z pewnością są wartości …

104 python apache-spark dataframe pyspark apache-spark-sql

14

Jak sprawdzić, czy Spark Dataframe jest pusty?

W tej chwili muszę użyć, df.count > 0aby sprawdzić, czy DataFramejest pusty, czy nie. Ale jest to trochę nieefektywne. Czy jest lepszy sposób, aby to zrobić? Dzięki. PS: Chcę sprawdzić, czy jest pusty, aby zapisać tylko DataFramewtedy, gdy nie jest pusty

102 apache-spark apache-spark-sql

5

jak zmienić kolumnę Dataframe z typu String na typ Double w pyspark

Mam ramkę danych z kolumną jako ciągiem. Chciałem zmienić typ kolumny na Double type w PySpark. Oto droga, którą zrobiłem: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Chciałem tylko wiedzieć, czy to właściwy sposób, aby to zrobić, ponieważ podczas przechodzenia przez regresję logistyczną dostaję jakiś błąd, więc zastanawiam się, …

102 python apache-spark dataframe pyspark apache-spark-sql

8

Jak stworzyć pustą ramkę DataFrame z określonym schematem?

Chcę tworzyć dalej DataFramez określonym schematem w Scali. Próbowałem użyć odczytu JSON (mam na myśli czytanie pustego pliku), ale nie sądzę, że to najlepsza praktyka.

99 scala apache-spark dataframe apache-spark-sql

6

Zmienianie nazw kolumn DataFrame w Spark Scala

Próbuję przekonwertować wszystkie nagłówki / nazwy kolumn DataFramew Spark-Scala. na razie wymyślam następujący kod, który zastępuje tylko jedną nazwę kolumny. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

Pytania otagowane jako apache-spark-sql