Zaczynam od takich danych wejściowych jak to df1 = pandas.DataFrame( { "Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" , "Mallory"] , "City" : ["Seattle", "Seattle", "Portland", "Seattle", "Seattle", "Portland"] } ) Które po wydrukowaniu wygląda następująco: City Name 0 Seattle Alice 1 Seattle Bob 2 Portland Mallory 3 Seattle Mallory …
Mam ramkę danych dfi używam z niej kilku kolumn do groupby: df['col1','col2','col3','col4'].groupby(['col1','col2']).mean() W powyższy sposób prawie otrzymuję potrzebną tabelę (ramkę danych). Brakuje dodatkowej kolumny, która zawiera liczbę wierszy w każdej grupie. Innymi słowy, mam na myśli, ale chciałbym również wiedzieć, ile liczb wykorzystano do uzyskania tych środków. Na przykład w …
Co to jest oś obrotu? Jak się obracać? Czy to jest oś obrotu? Długi format do szerokiego formatu? Widziałem wiele pytań dotyczących tabel przestawnych. Nawet jeśli nie wiedzą, że pytają o tabele przestawne, zwykle tak są. Praktycznie niemożliwe jest napisanie kanonicznego pytania i odpowiedzi, które obejmują wszystkie aspekty obrotu ... …
Mam ramkę danych pand, dftakich jak: a b A 1 A 2 B 5 B 5 B 4 C 6 Chcę pogrupować według pierwszej kolumny i uzyskać drugą kolumnę jako listy w wierszach : A [1,2] B [5,5,4] C [6] Czy można zrobić coś takiego za pomocą Panda Groupby?
Jak znaleźć wszystkie wiersze w ramce danych pandy, które mają maksymalną wartość dla countkolumny, po zgrupowaniu według ['Sp','Mt']kolumn? Przykład 1: następujące ramki danych, które grupuję według ['Sp','Mt']: Sp Mt Value count 0 MM1 S1 a **3** 1 MM1 S1 n 2 2 MM1 S3 cb 5 3 MM2 S3 mk …
Jak uzyskać dostęp do odpowiedniej ramki danych typu groupby w obiekcie typu groupby za pomocą klucza? Z następującą grupą: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar'] * 3, 'B': rand.randn(6), 'C': rand.randint(0, 20, 6)}) gb = df.groupby(['A']) Mogę go iterować, aby uzyskać klucze i grupy: In [11]: for k, …
Mam DataFrame z wieloma brakującymi wartościami w kolumnach, które chcę pogrupować według: import pandas as pd import numpy as np df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']}) In [4]: df.groupby('b').groups Out[4]: {'4': [0], '6': [2]} zobacz, że Pandy porzuciły wiersze z wartościami docelowymi NaN. (Chcę uwzględnić te …
Czy istnieje wbudowany sposób pandy do zastosowania dwóch różnych funkcji agregujących f1, f2do tej samej kolumny df["returns"]bez konieczności agg()wielokrotnego wywoływania ? Przykładowa ramka danych: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * …
Mam ramkę danych z trzema kolumnami ciągów. Wiem, że jedyna wartość w trzeciej kolumnie jest ważna dla każdej kombinacji dwóch pierwszych. Aby wyczyścić dane, muszę pogrupować ramkę danych według pierwszych dwóch kolumn i wybrać najbardziej powszechną wartość trzeciej kolumny dla każdej kombinacji. Mój kod: import pandas as pd from scipy …
Chcę scalić kilka ciągów w ramce danych opartej na zgrupowaniu w Pandas. To jest mój kod do tej pory: import pandas as pd from io import StringIO data = StringIO(""" "name1","hej","2014-11-01" "name1","du","2014-11-02" "name1","aj","2014-12-01" "name1","oj","2014-12-02" "name2","fin","2014-11-01" "name2","katt","2014-11-02" "name2","mycket","2014-12-01" "name2","lite","2014-12-01" """) # load string as stream into dataframe df = pd.read_csv(data,header=0, names=["name","text","date"],parse_dates=[2]) …
Rozważ plik CSV: string,date,number a string,2/5/11 9:16am,1.0 a string,3/5/11 10:44pm,2.0 a string,4/22/11 12:07pm,3.0 a string,4/22/11 12:10pm,4.0 a string,4/29/11 11:59am,1.0 a string,5/2/11 1:41pm,2.0 a string,5/2/11 2:02pm,3.0 a string,5/2/11 2:56pm,4.0 a string,5/2/11 3:00pm,5.0 a string,5/2/14 3:02pm,6.0 a string,5/2/14 3:18pm,7.0 Mogę to przeczytać i przeformatować kolumnę z datą na format daty i godziny: …
To powinno być proste, ale najbliższą rzeczą, jaką znalazłem, jest ten post: pandy: Uzupełnianie brakujących wartości w grupie , a nadal nie mogę rozwiązać swojego problemu .... Załóżmy, że mam następującą ramkę danych df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']}) name …
Próbuję utworzyć nową kolumnę z groupbyobliczeń. W poniższym kodzie otrzymuję poprawne obliczone wartości dla każdej daty (patrz grupa poniżej), ale kiedy próbuję utworzyć nową kolumnę ( df['Data4']) za jej pomocą, otrzymuję NaN. Więc próbuję utworzyć nową kolumnę w ramce danych z sumą Data3wszystkich dat i zastosować ją do każdego wiersza …
Mam poniżej Dataframe z polem „Age”, Potrzebuję znaleźć do góry 3 minimalny wiek z DataFrame DF = pd.DataFrame.from_dict({'Name':['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], 'Age':[18, 45, 35, 70, 23, 24, 50, 65, 18, 23]}) DF['Age'].min() Chcesz znaleźć dwie najlepsze osoby, tj. 18, 23 lat na liście, Jak …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.