Pytania otagowane jako pandas

Pandas to biblioteka Pythona do manipulacji i analizy danych, np. Ramki danych, wielowymiarowe szeregi czasowe i zestawy danych przekrojowych powszechnie spotykane w statystykach, eksperymentalnych wynikach nauki, ekonometrii lub finansach. Pandas jest jedną z głównych bibliotek nauki danych w Pythonie.

8
Pandy dzielą kolumnę list na wiele kolumn
Mam pandy DataFrame z jedną kolumną: import pandas as pd df = pd.DataFrame( data={ "teams": [ ["SF", "NYG"], ["SF", "NYG"], ["SF", "NYG"], ["SF", "NYG"], ["SF", "NYG"], ["SF", "NYG"], ["SF", "NYG"], ] } ) print(df) Wynik: teams 0 [SF, NYG] 1 [SF, NYG] 2 [SF, NYG] 3 [SF, NYG] 4 [SF, …
135 python  pandas 


6
jak sprawdzić typ kolumny w pandach Pythona
Potrzebuję różnych funkcji do traktowania kolumn numerycznych i kolumn z ciągami. To, co teraz robię, jest naprawdę głupie: allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc: treat_numeric(agg[y]) allc = list((agg.loc[:, (agg.dtypes!=np.float64)&(agg.dtypes!=np.int)]).columns) for y in allc: treat_str(agg[y]) Czy jest na to bardziej elegancki sposób? Na przykład for y in agg.columns: if(dtype(agg[y]) …
135 python  pandas 

14
Jak wydrukować obiekt grupowania
Chcę wydrukować wynik grupowania z Pandami. Mam ramkę danych: import pandas as pd df = pd.DataFrame({'A': ['one', 'one', 'two', 'three', 'three', 'one'], 'B': range(6)}) print(df) A B 0 one 0 1 one 1 2 two 2 3 three 3 4 three 4 5 one 5 Podczas drukowania po pogrupowaniu według …
134 python  pandas 

5
Normalizuj dane w pandach
Załóżmy, że mam ramkę danych pandy df: Chcę obliczyć średnią kolumnową ramki danych. To jest łatwe: df.apply(average) następnie zakres mądry kolumny max (col) - min (col). To znowu jest łatwe: df.apply(max) - df.apply(min) Teraz dla każdego elementu chcę odjąć średnią z jego kolumny i podzielić przez zakres jego kolumny. Nie …
133 python  pandas  numpy 

2
sprawdź, czy zmienna to dataframe
kiedy moja funkcja f jest wywoływana ze zmienną, chcę sprawdzić, czy var jest ramką danych pandy: def f(var): if var == pd.DataFrame(): print "do stuff" Myślę, że rozwiązanie może być dość proste, ale nawet z def f(var): if var.values != None: print "do stuff" Nie mogę zmusić go do działania …
133 python  pandas 

20
Jak mogę jeden kod na gorąco w Pythonie?
Mam problem z klasyfikacją systemów uczących się z 80% zmiennych kategorialnych. Czy muszę używać jednego kodowania na gorąco, jeśli chcę użyć jakiegoś klasyfikatora do klasyfikacji? Czy mogę przekazać dane do klasyfikatora bez kodowania? Próbuję wykonać następujące czynności w celu wyboru funkcji: Przeczytałem plik pociągu: num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", …

5
Pandy DataFrame: zamień wszystkie wartości w kolumnie na podstawie warunku
Mam prostą ramkę DataFrame, taką jak poniżej: Chcę wybrać wszystkie wartości z kolumny „Pierwszy sezon” i zastąpić te, które są powyżej 1990 r., 1. W tym przykładzie tylko Baltimore Ravens zastąpiłoby rok 1996 wartością 1 (pozostawiając resztę danych w stanie nienaruszonym). Użyłem następujących: df.loc[(df['First Season'] > 1990)] = 1 Ale …
132 python  pandas  dataframe 

3
jaki jest najbardziej skuteczny sposób liczenia wystąpień w pandach?
Mam dużą (około 12 mln wierszy) df ramki danych z powiedzmy: df.columns = ['word','documents','frequency'] Tak więc następujące działania przebiegały w odpowiednim czasie: word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index() MaxFrequency_perWord.columns = ['word','MaxFrequency'] Jednak to trwa nieoczekiwanie długo: Occurrences_of_Words = word_grouping[['word']].count().reset_index() Co ja tu robię źle? Czy istnieje lepszy sposób zliczania wystąpień …
131 python  pandas 

9
Usuń niechciane części ze strun w kolumnie
Szukam skutecznego sposobu na usunięcie niechcianych części z ciągów w kolumnie DataFrame. Dane wyglądają następująco: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Muszę przyciąć te dane do: time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 …

3
Wiele agregacji tej samej kolumny przy użyciu pandas GroupBy.agg ()
Czy istnieje wbudowany sposób pandy do zastosowania dwóch różnych funkcji agregujących f1, f2do tej samej kolumny df["returns"]bez konieczności agg()wielokrotnego wywoływania ? Przykładowa ramka danych: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * …

5
Dodaj brakujące daty do pandy dataframe
Moje dane mogą mieć wiele wydarzeń w określonym dniu lub ŻADNYCH wydarzeń w danym dniu. Biorę te wydarzenia, liczę według daty i wykreślam je. Jednak kiedy je wykreślam, moje dwie serie nie zawsze pasują. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() W powyższym kodzie idx staje się zakresem powiedzmy 30 …
129 python  date  plot  pandas  dataframe 

8
Jak mogę wykreślić oddzielne ramki danych Pandas jako podploty?
Mam kilka ramek Pandas DataFrames, które mają tę samą skalę wartości, ale mają różne kolumny i indeksy. Podczas wywoływania df.plot()otrzymuję oddzielne obrazy fabuły. to, czego naprawdę chcę, to mieć je wszystkie na tej samej działce co wątki poboczne, ale niestety nie udaje mi się znaleźć rozwiązania, jak i byłbym bardzo …

4
Połącz razem listę ramek danych pand
Mam listę ramek danych Pandas, które chciałbym połączyć w jedną ramkę danych Pandas. Używam Pythona 2.7.10 i Pandas 0.16.2 Utworzyłem listę ramek danych z: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) Zwraca listę ramek danych type(dfs[0]) …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.