Programowanie dataframe

5

Dataframe Pandy pobiera pierwszy wiersz każdej grupy

Mam pandy, które DataFramelubią podążać. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Chcę to pogrupować według [„id”, „value”] i uzyskać pierwszy wiersz każdej grupy. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first 6 3 …

150 python pandas dataframe

11

Usuń kolumny z ramki danych, w których WSZYSTKIE wartości to NA

Mam problemy z ramki danych i nie można było rozwiązać tę kwestię sobie: dataframe ma arbitralnych właściwości jak kolumny i każdy wiersz reprezentuje jeden zestaw danych . Pytanie brzmi: jak pozbyć się kolumn, w których dla WSZYSTKICH wierszy wartością jest NA ?

149 r apply dataframe

7

pandy dataframe kolumny skalowanie za pomocą sklearn

Mam ramkę danych pandy z kolumnami typu mieszanego i chciałbym zastosować min_max_scaler sklearn do niektórych kolumn. Idealnie, chciałbym dokonać tych transformacji na miejscu, ale jeszcze nie wymyśliłem sposobu, aby to zrobić. Napisałem następujący kod, który działa: import pandas as pd import numpy as np from sklearn import preprocessing scaler = …

148 python pandas scikit-learn dataframe

7

Konwertuj nazwy wierszy na pierwszą kolumnę

Mam taką ramkę danych: df VALUE ABS_CALL DETECTION P-VALUE 1007_s_at "957.729231881542" "P" "0.00486279317241156" 1053_at "320.632701283368" "P" "0.0313356324173416" 117_at "429.842323161046" "P" "0.0170004527476119" 121_at "2395.7364289242" "P" "0.0114473584876183" 1255_g_at "116.493632746934" "A" "0.39799368200131" 1294_at "739.927122116896" "A" "0.0668649772942343" Chcę przekonwertować nazwy wierszy na pierwszą kolumnę. Obecnie używam czegoś takiego, aby nazwy wierszy były pierwszą kolumną: …

147 r dataframe col rowname

2

Wybierz wiersze w pandach MultiIndex DataFrame

Jakie są najczęstsze sposoby wybierania / filtrowania wierszy ramki danych, której indeksem jest MultiIndex, na pandach ? Krojenie na podstawie jednej wartości / etykiety Krojenie na podstawie wielu etykiet z jednego lub kilku poziomów Filtrowanie według warunków i wyrażeń logicznych Jakie metody mają zastosowanie w jakich okolicznościach Założenia prostoty: wejściowa …

147 python pandas dataframe slice multi-index

5

Jak podzielić dane na 3 zbiory (trenowanie, walidacja i testowanie)?

Mam ramkę danych pandy i chcę ją podzielić na 3 oddzielne zestawy. Wiem, że używając train_test_split z sklearn.cross_validation, można podzielić dane na dwa zestawy (pociąg i test). Nie mogłem jednak znaleźć żadnego rozwiązania dotyczącego podziału danych na trzy zestawy. Najlepiej, jeśli posiadam indeksy oryginalnych danych. Wiem, że obejściem byłoby train_test_splitdwukrotne …

146 pandas numpy dataframe machine-learning scikit-learn

7

Znajdź kolumnę, której nazwa zawiera określony ciąg

Mam ramkę danych z nazwami kolumn i chcę znaleźć tę, która zawiera określony ciąg, ale nie jest do niego dokładnie dopasowana. Szukam 'spike'w nazwy kolumn podoba 'spike-2', 'hey spike', 'spiked-in'(the 'spike'część jest zawsze ciągła). Chcę, aby nazwa kolumny była zwracana jako ciąg lub zmienna, więc mam dostęp do kolumny później …

146 python python-3.x string pandas dataframe

7

Pandy dataframe fillna () tylko niektóre kolumny na miejscu

Próbuję wypełnić żadne wartości w ramce danych Pandas z zerami tylko dla niektórych podzbiorów kolumn. Kiedy robię: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Wyjście: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN 6.0 8.0 …

145 python pandas dataframe

7

Jak znaleźć kolumny zawierające dowolną wartość NaN w ramce danych Pandas

Biorąc pod uwagę ramkę danych pandy zawierającą możliwe wartości NaN rozproszone tu i tam: Pytanie: Jak określić, które kolumny zawierają wartości NaN? W szczególności, czy mogę uzyskać listę nazw kolumn zawierających NaN?

144 python pandas dataframe nan

8

pandy unikalne wartości wielu kolumn

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Jaki jest najlepszy sposób na zwrócenie unikatowych wartości „Col1” i „Col2”? Żądane wyjście to 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

144 python pandas dataframe unique

8

Jak wybrać pierwszy wiersz każdej grupy?

Mam DataFrame wygenerowaną w następujący sposób: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Wyniki wyglądają następująco: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

6

Jak zdobyć pierwszą kolumnę pandy DataFrame jako serię?

Próbowałem: x=pandas.DataFrame(...) s = x.take([0], axis=1) I spobiera DataFrame, a nie Series.

142 python dataframe pandas series

14

Określ liczbę wartości NA w kolumnie

Chcę policzyć liczbę NAwartości w kolumnie ramki danych. Powiedzmy, że nazywa się moja ramka danych df, a nazwa kolumny, którą rozważam, to col. Sposób, który wymyśliłem, jest następujący: sapply(df$col, function(x) sum(length(which(is.na(x))))) Czy to dobry / najbardziej efektywny sposób, aby to zrobić?

142 r dataframe

8

Zmień nazwę indeksu Pandas DataFrame

Mam plik csv bez nagłówka z indeksem DateTime. Chcę zmienić nazwę indeksu i kolumny, ale za pomocą df.rename () zmienia się tylko nazwa kolumny. Pluskwa? Jestem na wersji 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 …

142 python pandas dataframe

8

Pomiń wiersze zawierające określoną kolumnę NA

Chcę wiedzieć, jak pomijać NAwartości w ramce danych, ale tylko w niektórych kolumnach, które mnie interesują. Na przykład, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) ale chcę tylko pominąć dane, w których yjest NA, dlatego wynik powinien być x y z 1 …

138 r dataframe na

Pytania otagowane jako dataframe