Pytania otagowane jako dataframe

Ramka danych jest tabelaryczną strukturą danych. Zwykle zawiera dane, w których wiersze są obserwacjami, a kolumny zmiennymi różnego typu. Chociaż „ramka danych” lub „ramka danych” jest terminem używanym w tej koncepcji w kilku językach (R, Apache Spark, deedle, Maple, biblioteka pand w Pythonie i biblioteka DataFrames w Julii), „tabela” jest terminem używanym w MATLAB i SQL.

5
Dataframe Pandy pobiera pierwszy wiersz każdej grupy
Mam pandy, które DataFramelubią podążać. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Chcę to pogrupować według [„id”, „value”] i uzyskać pierwszy wiersz każdej grupy. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first 6 3 …
150 python  pandas  dataframe 


7
pandy dataframe kolumny skalowanie za pomocą sklearn
Mam ramkę danych pandy z kolumnami typu mieszanego i chciałbym zastosować min_max_scaler sklearn do niektórych kolumn. Idealnie, chciałbym dokonać tych transformacji na miejscu, ale jeszcze nie wymyśliłem sposobu, aby to zrobić. Napisałem następujący kod, który działa: import pandas as pd import numpy as np from sklearn import preprocessing scaler = …

7
Konwertuj nazwy wierszy na pierwszą kolumnę
Mam taką ramkę danych: df VALUE ABS_CALL DETECTION P-VALUE 1007_s_at "957.729231881542" "P" "0.00486279317241156" 1053_at "320.632701283368" "P" "0.0313356324173416" 117_at "429.842323161046" "P" "0.0170004527476119" 121_at "2395.7364289242" "P" "0.0114473584876183" 1255_g_at "116.493632746934" "A" "0.39799368200131" 1294_at "739.927122116896" "A" "0.0668649772942343" Chcę przekonwertować nazwy wierszy na pierwszą kolumnę. Obecnie używam czegoś takiego, aby nazwy wierszy były pierwszą kolumną: …
147 r  dataframe  col  rowname 

2
Wybierz wiersze w pandach MultiIndex DataFrame
Jakie są najczęstsze sposoby wybierania / filtrowania wierszy ramki danych, której indeksem jest MultiIndex, na pandach ? Krojenie na podstawie jednej wartości / etykiety Krojenie na podstawie wielu etykiet z jednego lub kilku poziomów Filtrowanie według warunków i wyrażeń logicznych Jakie metody mają zastosowanie w jakich okolicznościach Założenia prostoty: wejściowa …

5
Jak podzielić dane na 3 zbiory (trenowanie, walidacja i testowanie)?
Mam ramkę danych pandy i chcę ją podzielić na 3 oddzielne zestawy. Wiem, że używając train_test_split z sklearn.cross_validation, można podzielić dane na dwa zestawy (pociąg i test). Nie mogłem jednak znaleźć żadnego rozwiązania dotyczącego podziału danych na trzy zestawy. Najlepiej, jeśli posiadam indeksy oryginalnych danych. Wiem, że obejściem byłoby train_test_splitdwukrotne …

7
Znajdź kolumnę, której nazwa zawiera określony ciąg
Mam ramkę danych z nazwami kolumn i chcę znaleźć tę, która zawiera określony ciąg, ale nie jest do niego dokładnie dopasowana. Szukam 'spike'w nazwy kolumn podoba 'spike-2', 'hey spike', 'spiked-in'(the 'spike'część jest zawsze ciągła). Chcę, aby nazwa kolumny była zwracana jako ciąg lub zmienna, więc mam dostęp do kolumny później …

7
Pandy dataframe fillna () tylko niektóre kolumny na miejscu
Próbuję wypełnić żadne wartości w ramce danych Pandas z zerami tylko dla niektórych podzbiorów kolumn. Kiedy robię: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Wyjście: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN 6.0 8.0 …
145 python  pandas  dataframe 


8
pandy unikalne wartości wielu kolumn
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Jaki jest najlepszy sposób na zwrócenie unikatowych wartości „Col1” i „Col2”? Żądane wyjście to 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

8
Jak wybrać pierwszy wiersz każdej grupy?
Mam DataFrame wygenerowaną w następujący sposób: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Wyniki wyglądają następująco: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …


14
Określ liczbę wartości NA w kolumnie
Chcę policzyć liczbę NAwartości w kolumnie ramki danych. Powiedzmy, że nazywa się moja ramka danych df, a nazwa kolumny, którą rozważam, to col. Sposób, który wymyśliłem, jest następujący: sapply(df$col, function(x) sum(length(which(is.na(x))))) Czy to dobry / najbardziej efektywny sposób, aby to zrobić?
142 r  dataframe 

8
Zmień nazwę indeksu Pandas DataFrame
Mam plik csv bez nagłówka z indeksem DateTime. Chcę zmienić nazwę indeksu i kolumny, ale za pomocą df.rename () zmienia się tylko nazwa kolumny. Pluskwa? Jestem na wersji 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 …
142 python  pandas  dataframe 

8
Pomiń wiersze zawierające określoną kolumnę NA
Chcę wiedzieć, jak pomijać NAwartości w ramce danych, ale tylko w niektórych kolumnach, które mnie interesują. Na przykład, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) ale chcę tylko pominąć dane, w których yjest NA, dlatego wynik powinien być x y z 1 …
138 r  dataframe  na 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.