Pytania otagowane jako pandas

Pandas to biblioteka Pythona do manipulacji i analizy danych, np. Ramki danych, wielowymiarowe szeregi czasowe i zestawy danych przekrojowych powszechnie spotykane w statystykach, eksperymentalnych wynikach nauki, ekonometrii lub finansach. Pandas jest jedną z głównych bibliotek nauki danych w Pythonie.


9
Zastąp nieprawidłowe wartości wartością Brak w Pandas DataFrame
Czy istnieje metoda zastępowania wartości Nonew Pandas w Pythonie? Możesz użyć df.replace('pre', 'post')i zastąpić wartość inną, ale nie można tego zrobić, jeśli chcesz zastąpić Nonewartość, co jeśli spróbujesz, otrzymasz dziwny wynik. Oto przykład: df = DataFrame(['-',3,2,5,1,-5,-1,'-',9]) df.replace('-', 0) co zwraca pomyślny wynik. Ale, df.replace('-', None) co zwraca następujący wynik: 0 …

6
Funkcja agregująca Pandas DataFrame korzystająca z wielu kolumn
Czy istnieje sposób na napisanie funkcji agregującej, która jest używana w DataFrame.aggmetodzie, która miałaby dostęp do więcej niż jednej kolumny danych, które są agregowane? Typowymi przypadkami użycia byłyby średnie ważone funkcje odchylenia standardowego. Chciałbym móc napisać coś takiego def wAvg(c, w): return ((c * w).sum() / w.sum()) df = DataFrame(....) …
80 python  pandas 

6
Usuń / przycinaj wszystkie ciągi ramki danych
Czyszczenie wartości ramki danych typu multitype w python / pandas, chcę przyciąć ciągi. Obecnie robię to w dwóch instrukcjach: import pandas as pd df = pd.DataFrame([[' a ', 10], [' c ', 5]]) df.replace('^\s+', '', regex=True, inplace=True) #front df.replace('\s+$', '', regex=True, inplace=True) #end df.values To jest dość powolne, co mogę …

8
Błąd pamięci podczas korzystania z pand read_csv
Próbuję zrobić coś dość prostego, wczytując duży plik csv do ramki danych pandy. data = pandas.read_csv(filepath, header = 0, sep = DELIMITER,skiprows = 2) Kod albo kończy się niepowodzeniem MemoryError, albo po prostu nigdy się nie kończy. Użycie pamięci w menedżerze zadań zatrzymało się na 506 Mb i po 5 …
79 python  windows  pandas 

3
Dziwny błąd w Pandach i Numpy dotyczący wielowątkowości
Większość funkcji Numpy domyślnie włącza wielowątkowość. na przykład pracuję na 8-rdzeniowej stacji roboczej z procesorem Intel, jeśli uruchomię skrypt import numpy as np x=np.random.random(1000000) for i in range(100000): np.sqrt(x) Linux topwyświetli 800% użycia procesora podczas pracy, co oznacza, że ​​numpy automatycznie wykrywa, że ​​moja stacja robocza ma 8 rdzeni i …
25 python  pandas  numpy 


7
Sprawdź, czy kolumna pandy zawiera wszystkie elementy z listy
Mam takiego df: frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']}) I lista przedmiotów: letters = ['a','c'] Moim celem jest, aby wszystkie wiersze framezawierały co najmniej 2 elementyletters Wymyśliłem to rozwiązanie: for i in letters: subframe = frame[frame['a'].str.contains(i)] To daje mi to, czego chcę, ale może nie być najlepszym rozwiązaniem pod …
20 python  pandas 

5
Rozpakować i zwrócić wartość liczy się dla każdej zmiennej?
Mam ramkę danych, która rejestruje odpowiedzi 19717 osób na wybór języków programowania za pomocą pytań wielokrotnego wyboru. Pierwsza kolumna to oczywiście płeć respondenta, a reszta to wybory, które wybrali. Dlatego jeśli wybiorę Python, moja odpowiedź zostanie zapisana w kolumnie Python, a nie bash i odwrotnie. ID Gender Python Bash R …


3
Jak przekonwertować ramkę danych pandy na słownik hierarchiczny
Mam następującą ramkę danych pand: df1 = pd.DataFrame({'date': [200101,200101,200101,200101,200102,200102,200102,200102],'blockcount': [1,1,2,2,1,1,2,2],'reactiontime': [350,400,200,250,100,300,450,400]}) Próbuję utworzyć słownik hierarchiczny z wartościami osadzonego słownika w postaci list, który wygląda następująco: {200101: {1:[350, 400], 2:[200, 250]}, 200102: {1:[100, 300], 2:[450, 400]}} Jak mam to zrobić? Najbliższe mi jest użycie tego kodu: df1.set_index('date').groupby(level='date').apply(lambda x: x.set_index('blockcount').squeeze().to_dict()).to_dict() Które zwraca: …
16 python  pandas 



6
Znajdź szybko pary symetryczne w numpy
from itertools import product import pandas as pd df = pd.DataFrame.from_records(product(range(10), range(10))) df = df.sample(90) df.columns = "c1 c2".split() df = df.sort_values(df.columns.tolist()).reset_index(drop=True) # c1 c2 # 0 0 0 # 1 0 1 # 2 0 2 # 3 0 3 # 4 0 4 # .. .. .. # …
15 python  pandas  numpy 

3
Uzyskaj najbliższą odległość dzięki dwóm ramkom geodezyjnym w pandach
Oto moja pierwsza geobramka: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) Miasto 1 …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.