Pandy: suma wierszy DataFrame dla danych kolumn


153

Mam następującą ramkę DataFrame:

In [1]:

import pandas as pd
df = pd.DataFrame({'a': [1,2,3], 'b': [2,3,4], 'c':['dd','ee','ff'], 'd':[5,9,1]})
df
Out [1]:
   a  b   c  d
0  1  2  dd  5
1  2  3  ee  9
2  3  4  ff  1

Chciałbym dodać kolumnę 'e', która jest sumą kolumny 'a', 'b'i 'd'.

Przeglądając fora, pomyślałem, że coś takiego zadziała:

df['e'] = df[['a','b','d']].map(sum)

Ale tak się nie stało.

Chciałbym poznać odpowiednią operację z listą kolumn ['a','b','d']i dfjako dane wejściowe.

Odpowiedzi:


260

Możesz po prostu sumustawić parametr tak, axis=1aby sumował wiersze, to zignoruje żadne kolumny numeryczne:

In [91]:

df = pd.DataFrame({'a': [1,2,3], 'b': [2,3,4], 'c':['dd','ee','ff'], 'd':[5,9,1]})
df['e'] = df.sum(axis=1)
df
Out[91]:
   a  b   c  d   e
0  1  2  dd  5   8
1  2  3  ee  9  14
2  3  4  ff  1   8

Jeśli chcesz tylko zsumować określone kolumny, możesz utworzyć listę kolumn i usunąć te, które Cię nie interesują:

In [98]:

col_list= list(df)
col_list.remove('d')
col_list
Out[98]:
['a', 'b', 'c']
In [99]:

df['e'] = df[col_list].sum(axis=1)
df
Out[99]:
   a  b   c  d  e
0  1  2  dd  5  3
1  2  3  ee  9  5
2  3  4  ff  1  7

32

Jeśli masz tylko kilka kolumn do zsumowania, możesz napisać:

df['e'] = df['a'] + df['b'] + df['d']

Spowoduje to eutworzenie nowej kolumny z wartościami:

   a  b   c  d   e
0  1  2  dd  5   8
1  2  3  ee  9  14
2  3  4  ff  1   8

W przypadku dłuższych list kolumn preferowana jest odpowiedź EdChum.


15

Utwórz listę nazw kolumn, które chcesz dodać.

df['total']=df.loc[:,list_name].sum(axis=1)

Jeśli chcesz uzyskać sumę dla niektórych wierszy, określ wiersze za pomocą „:”


14

Jest to prostszy sposób używania iloc do wybierania kolumn do sumowania:

df['f']=df.iloc[:,0:2].sum(axis=1)
df['g']=df.iloc[:,[0,1]].sum(axis=1)
df['h']=df.iloc[:,[0,3]].sum(axis=1)

Produkuje:

   a  b   c  d   e  f  g   h
0  1  2  dd  5   8  3  3   6
1  2  3  ee  9  14  5  5  11
2  3  4  ff  1   8  7  7   4

Nie mogę znaleźć sposobu na połączenie zakresu i konkretnych kolumn, który działa np. Coś takiego:

df['i']=df.iloc[:,[[0:2],3]].sum(axis=1)
df['i']=df.iloc[:,[0:2,3]].sum(axis=1)


5

Możesz po prostu przekazać swoją ramkę danych do następującej funkcji :

def sum_frame_by_column(frame, new_col_name, list_of_cols_to_sum):
    frame[new_col_name] = frame[list_of_cols_to_sum].astype(float).sum(axis=1)
    return(frame)

Przykład :

Mam ramkę danych (Awards_frame) w następujący sposób:

wprowadź opis obrazu tutaj

... i chcę utworzyć nową kolumnę pokazującą sumę nagród dla każdego wiersza :

Użycie :

Po prostu przekazuję swoją ramkę_nagrodową do funkcji, podając również nazwę nowej kolumny i listę nazw kolumn, które mają być zsumowane:

sum_frame_by_column(awards_frame, 'award_sum', ['award_1','award_2','award_3'])

Wynik :

wprowadź opis obrazu tutaj


0

Najkrótszym i najłatwiejszym sposobem jest użycie

    df.eval('e = a + b + d')
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.