Programowanie pandas

5

Konstruuj pandy DataFrame z elementów w zagnieżdżonym słowniku

Załóżmy, że mam zagnieżdżony słownik „user_dict” o strukturze: Poziom 1: UserId (długa liczba całkowita) Poziom 2: Kategoria (ciąg znaków) Poziom 3: różne atrybuty (liczby zmiennoprzecinkowe, liczby wewnętrzne itp.) Na przykład wpis w tym słowniku wyglądałby tak: user_dict[12] = { "Category 1": {"att_1": 1, "att_2": "whatever"}, "Category 2": {"att_1": 23, "att_2": …

90 python pandas dataframe multi-index

7

Łączenie łańcuchów dwóch kolumn pandy

Mam DataFrame: from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) To wygląda tak: bar foo 0 1 a 1 2 b 2 3 c Teraz chcę mieć coś takiego: bar 0 1 is a 1 2 is b 2 3 is c Jak mogę to osiągnąć? Próbowałem następujących …

90 python string pandas numpy dataframe

1

Efektywne stosowanie funkcji równolegle do zgrupowanych pand DataFrame

Często muszę zastosować funkcję do grup o bardzo dużych DataFrame(mieszanych typach danych) i chciałbym skorzystać z wielu rdzeni. Mogę utworzyć iterator z grup i użyć modułu wieloprocesorowego, ale nie jest to wydajne, ponieważ każda grupa i wyniki funkcji muszą być marynowane do przesyłania wiadomości między procesami. Czy jest jakiś sposób, …

89 python pandas multiprocessing shared-memory

1

Jakie są różnice między piórami a parkietem?

Oba są kolumnowymi (dyskowymi) formatami pamięci do użytku w systemach analizy danych. Oba są zintegrowane z Apache Arrow ( pyarrow pakiet dla Pythona) i są zaprojektowane tak, aby odpowiadały Arrow jako kolumna warstwa analityczna w pamięci. Czym różnią się oba formaty? Czy podczas pracy z pandami zawsze powinieneś preferować pióra, …

89 python pandas parquet feather pyarrow

8

Wykresy punktowe w Pandas / Pyplot: Jak kreślić według kategorii

Próbuję wykonać prosty wykres punktowy w pyplocie przy użyciu obiektu Pandas DataFrame, ale chcę wydajnego sposobu wykreślania dwóch zmiennych, ale symbole mają podyktowane przez trzecią kolumnę (klucz). Próbowałem różnych sposobów korzystania z df.groupby, ale bez powodzenia. Przykładowy skrypt df znajduje się poniżej. Powoduje to kolorowanie znaczników zgodnie z „kluczem1”, ale …

89 python matplotlib pandas

3

Opisuj słupki wartościami na wykresach słupkowych Pandas

Szukałem sposobu na opisanie moich słupków na wykresie słupkowym Pandy za pomocą zaokrąglonych wartości liczbowych z mojej ramki DataFrame. >>> df=pd.DataFrame({'A':np.random.rand(2),'B':np.random.rand(2)},index=['value1','value2'] ) >>> df A B value1 0.440922 0.911800 value2 0.588242 0.797366 Chciałbym dostać coś takiego: Próbowałem z tym przykładem kodu, ale wszystkie adnotacje są wyśrodkowane na znacznikach x: >>> …

89 python matplotlib plot pandas dataframe

2

Zapisz listę DataFrames w wieloarkuszowym arkuszu kalkulacyjnym Excel

Jak mogę wyeksportować listę ramek danych do jednego arkusza kalkulacyjnego Excel? Dokumenty dotyczące to_excelstanu: Uwagi Jeśli przekazujesz istniejący obiekt ExcelWriter, arkusz zostanie dodany do istniejącego skoroszytu. Może to służyć do zapisywania różnych ramek danych w jednym skoroszycie writer = ExcelWriter('output.xlsx') df1.to_excel(writer, 'sheet1') df2.to_excel(writer, 'sheet2') writer.save() Po tym pomyślałem, że mógłbym …

89 python pandas openpyxl

13

Porównanie dwóch ramek danych i uzyskanie różnic

Mam dwie ramki danych. Przykłady: df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 …

89 python pandas dataframe

4

Niestandardowe sortowanie w ramce danych pandy

Mam Dataframe Pandy Pythona, w której kolumna zawiera nazwę miesiąca. Jak mogę wykonać niestandardowe sortowanie za pomocą słownika, na przykład: custom_dict = {'March':0, 'April':1, 'Dec':3}

89 python pandas

1

Sortowanie według wielu indeksów w pandach

Mam zestaw danych z kolumnami z wieloma indeksami w pandas df, który chciałbym posortować według wartości w określonej kolumnie. Próbowałem użyć sortindex i sortlevel, ale nie udało mi się uzyskać wyników, których szukam. Mój zbiór danych wygląda następująco: Group1 Group2 A B C A B C 1 1 0 3 …

88 python sorting pandas multi-index

3

Suma pandy według grupowania, ale wyklucz niektóre kolumny

Jaki jest najlepszy sposób wykonania grupowania w ramce danych Pandas, ale wykluczyć niektóre kolumny z tej grupy? np. mam następującą ramkę danych: Code Country Item_Code Item Ele_Code Unit Y1961 Y1962 Y1963 2 Afghanistan 15 Wheat 5312 Ha 10 20 30 2 Afghanistan 25 Maize 5312 Ha 10 20 30 4 …

88 python pandas group-by aggregate

2

float64 z pandami to_csv

Czytam plik CSV z liczbami zmiennoprzecinkowymi takimi: Bob,0.085 Alice,0.005 Zaimportuj do ramki danych i zapisz tę ramkę danych w nowym miejscu df = pd.read_csv(orig) df.to_csv(pandasfile) Teraz to pandasfilema: Bob,0.085000000000000006 Alice,0.0050000000000000001 Co się stało? może muszę rzucić na inny typ jak float32 czy coś takiego? Używam pand 0.9.0 i numpy 1.6.2 …

88 python numpy pandas

5

jak podzielić kolumnę krotek w Dataframe pandy?

Mam ramkę danych pandy (to tylko mały kawałek) >>> d1 y norm test y norm train len(y_train) len(y_test) \ 0 64.904368 116.151232 1645 549 1 70.852681 112.639876 1645 549 SVR RBF \ 0 (35.652207342877873, 22.95533537448393) 1 (39.563683797747622, 27.382483096332511) LCV \ 0 (19.365430594452338, 13.880062435173587) 1 (19.099614489458364, 14.018867136617146) RIDGE CV \ 0 …

88 python numpy pandas dataframe tuples

9

Jak ustalić, czy kolumna / zmienna jest numeryczna, czy nie w Pandas / NumPy?

Czy istnieje lepszy sposób określenia, czy zmienna jest Pandasi / lub NumPyjest, numericczy nie? Mam własny zdefiniowany dictionaryz dtypesjak klucze i numeric/ notjako wartości.

88 python pandas numpy

3

Konwertuj ciągi liczbowe przecinkami w pandach DataFrame na zmiennoprzecinkowe

Mam DataFrame, która zawiera liczby jako ciągi z przecinkami dla znacznika tysięcy. Muszę je przekonwertować na pływaki. a = [['1,200', '4,200'], ['7,000', '-0.03'], [ '5', '0']] df=pandas.DataFrame(a) Zgaduję, że muszę użyć locale.atof. W rzeczy samej df[0].apply(locale.atof) działa zgodnie z oczekiwaniami. Dostaję serię pływaków. Ale kiedy stosuję go do ramki DataFrame, …

88 python pandas

Pytania otagowane jako pandas