Pytania otagowane jako apache-spark

Apache Spark to silnik rozproszonego przetwarzania danych typu open source napisany w Scali, zapewniający ujednolicony interfejs API i rozproszone zestawy danych dla użytkowników. Przypadki użycia dla Apache Spark często są związane z uczeniem maszynowym / głębokim uczeniem, przetwarzaniem wykresów.

23
Jak mogę zmienić typy kolumn w DataFrame platformy Spark SQL?
Załóżmy, że robię coś takiego: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

8
Jak przechowywać obiekty niestandardowe w zestawie danych?
Zgodnie z wprowadzeniem zestawów danych Spark : Z niecierpliwością czekamy na Spark 2.0, planujemy kilka ekscytujących ulepszeń zestawów danych, w szczególności: ... Niestandardowe kodery - podczas gdy obecnie automatycznie generujemy kodery dla wielu różnych typów, chcielibyśmy otworzyć interfejs API dla niestandardowych obiektów. i próbuje zapisać niestandardowy typ w Datasetprowadzić do …


15
Jak wyłączyć logowanie INFO w Spark?
Zainstalowałem Sparka za pomocą przewodnika AWS EC2 i mogę poprawnie uruchomić program za pomocą bin/pysparkskryptu, aby dostać się do podpowiedzi iskry, a także mogę pomyślnie wykonać przewodnik Szybki start. Jednak do końca życia nie mogę wymyślić, jak zatrzymać wszystkie szczegółowe INFOrejestrowanie po każdym poleceniu. Wypróbowałem prawie każdy możliwy scenariusz w …

8
Jak wybrać pierwszy wiersz każdej grupy?
Mam DataFrame wygenerowaną w następujący sposób: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Wyniki wyglądają następująco: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

3
Jak etapy są dzielone na zadania w Spark?
Załóżmy, że w każdym momencie działa tylko jedno zadanie Spark. Co mam do tej pory Oto, co rozumiem, co dzieje się w Spark: Po SparkContextutworzeniu węzła roboczego każdy węzeł roboczy uruchamia moduł wykonawczy. Executory to oddzielne procesy (JVM), które łączą się z powrotem z programem sterownika. Każdy executor ma słoik …
143 apache-spark 

14
Spark - załadować plik CSV jako DataFrame?
Chciałbym przeczytać plik CSV w Spark i przekonwertować go na DataFrame i zapisać w HDFS z df.registerTempTable("table_name") Próbowałem: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Błąd, który otrzymałem: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) …

3
Apache Spark: map vs mapPartitions?
Jaka jest różnica między RDD map a mapPartitionsmetodą? I flatMapzachowuje się jak maplub jak mapPartitions? Dzięki. (edytuj) tj. jaka jest różnica (semantycznie lub pod względem wykonania) między def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- …


2
Jak dodać stałą kolumnę w Spark DataFrame?
Chcę dodać kolumnę DataFramez dowolną wartością (taką samą dla każdego wiersza). Pojawia się błąd, gdy używam withColumnw następujący sposób: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

9
Jak dodać nową kolumnę do Spark DataFrame (przy użyciu PySpark)?
Mam Spark DataFrame (przy użyciu PySpark 1.5.1) i chciałbym dodać nową kolumnę. Próbowałem następujących bez powodzenia: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Wystąpił również błąd podczas używania tego: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Jak więc dodać nową kolumnę …


12
Jak ustawić pamięć Apache Spark Executor
Jak mogę zwiększyć ilość pamięci dostępnej dla węzłów wykonawczych Apache Spark? Mam plik 2 GB, który nadaje się do załadowania do Apache Spark. W tej chwili używam Apache Spark na 1 maszynie, więc sterownik i executor są na tej samej maszynie. Maszyna posiada 8 GB pamięci. Kiedy próbuję policzyć linie …

10
Jak wydrukować zawartość RDD?
Próbuję wydrukować zawartość kolekcji do konsoli Spark. Mam typ: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] I używam polecenia: scala> linesWithSessionId.map(line => println(line)) Ale to jest drukowane: res1: org.apache.spark.rdd.RDD [Unit] = zmapowanyRDD [4] na mapie w: 19 Jak mogę napisać RDD na konsoli lub zapisać go na dysku, aby móc przeglądać jego zawartość?


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.