Pytania otagowane jako pyspark-sql

13
Jak zmienić nazwy kolumn ramki danych w pyspark?
Pochodzę z tła pand i jestem przyzwyczajony do czytania danych z plików CSV do ramki danych, a następnie po prostu zmieniając nazwy kolumn na coś użytecznego za pomocą prostego polecenia: df.columns = new_column_name_list Jednak to samo nie działa w ramkach danych pyspark utworzonych za pomocą sqlContext. Jedynym rozwiązaniem, które udało …

9
pokaż różne wartości kolumn w pyspark dataframe: python
Proszę zasugerować alternatywną ramkę danych pyspark dla Pand df['col'].unique(). Chcę wymienić wszystkie unikalne wartości w kolumnie dataframe pyspark. Nie sposób typu SQL (szablon rejestru, a następnie zapytanie SQL dla różnych wartości). Również nie potrzebuję groupby->countDistinct, zamiast tego chcę sprawdzić różne WARTOŚCI w tej kolumnie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.