Używam pand jako zamiennika bazy danych, ponieważ mam wiele baz danych (Oracle, mssql itp.) I nie jestem w stanie wykonać sekwencji poleceń do odpowiednika SQL.
Mam tabelę załadowaną do DataFrame z niektórymi kolumnami:
YEARMONTH, CLIENTCODE, SIZE, .... etc etc
W SQL, policzenie liczby różnych klientów rocznie byłoby:
SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;
I wynik byłby
201301 5000
201302 13245
Jak mogę to zrobić w pandach?
value_counts
może być odpowiedzią, której szukasz: pandas.pydata.org/pandas-docs/stable/generated/…