Pandy Zamień NaN na pusty / pusty ciąg


218

Mam ramkę danych Pandas, jak pokazano poniżej:

    1    2       3
 0  a  NaN    read
 1  b    l  unread
 2  c  NaN    read

Chcę usunąć wartości NaN z pustym ciągiem, aby wyglądał tak:

    1    2       3
 0  a   ""    read
 1  b    l  unread
 2  c   ""    read

Odpowiedzi:


261
import numpy as np
df1 = df.replace(np.nan, '', regex=True)

To może pomóc. Zastąpi wszystkie NaN pustym łańcuchem.


1
z jakiej biblioteki np.nanpochodzi? Nie mogę tego użyć
CaffeineConnoisseur

8
@CaffeineConnoisseur: import numpy as np.
John Zwinck,

26
@CaffeineConnoisseur - lub tylko pd.np.nanjeśli nie chcesz import numpy.
elPastor

1
Pozwala to również zapisać Dict jako ciąg znaków w wierszu .csv, a następnie odczytać z powrotem do DataFrame, używającpd.DataFrame.from_dict(eval(_string_))
yeliabsalohcin

5
Warto również wspomnieć o ... inplace=Trueopcji.
smci

342
df = df.fillna('')

Lub tylko

df.fillna('', inplace=True)

Spowoduje to wypełnienie na (np. NaN) ''.

Jeśli chcesz wypełnić jedną kolumnę, możesz użyć:

df.column1 = df.column1.fillna('')

Można użyć df['column1']zamiast df.column1.


5
@Mithril -df[['column1','column2']] = df[['column1','column2']].fillna('')
elPastor

99

Jeśli czytasz ramkę danych z pliku (powiedzmy CSV lub Excel), użyj:

  • df.read_csv(path , na_filter=False)
  • df.read_excel(path , na_filter=False)

Spowoduje to automatyczne uznanie pustych pól za puste ciągi ''


Jeśli masz już ramkę danych

  • df = df.replace(np.nan, '', regex=True)
  • df = df.fillna('')

na_filter nie jest dostępny na read_excel () pandas.pydata.org/pandas-docs/stable/…
Marjorie Roswell

Użyłem go w mojej aplikacji. Istnieje, ale z jakiegoś powodu nie podali tego argumentu w dokumentacji. Działa dla mnie dobrze, ale bez błędów.
Natesh bhat

Działa, używam go w parseciexl.parse('sheet_name', na_filter=False)
Dmitrii,

5

Użyj formatyzatora, jeśli chcesz go tylko sformatować, aby dobrze się renderował po wydrukowaniu . Wystarczy użyć, df.to_string(... formattersaby zdefiniować niestandardowe formatowanie łańcucha, bez niepotrzebnej modyfikacji DataFrame lub marnowania pamięci:

df = pd.DataFrame({
    'A': ['a', 'b', 'c'],
    'B': [np.nan, 1, np.nan],
    'C': ['read', 'unread', 'read']})
print df.to_string(
    formatters={'B': lambda x: '' if pd.isnull(x) else '{:.0f}'.format(x)})

Aby uzyskać:

   A B       C
0  a      read
1  b 1  unread
2  c      read

4
print df.fillna('')sam w sobie (bez robienia df = df.fillna('')) nie modyfikuje również oryginału. Czy istnieje szybkość lub inna korzyść z używania to_string?
fantastyczny

W porządku, df.fillna('')to prawda!
Steve Schulist

@shadowtalker: Niekoniecznie byłaby to poprawna odpowiedź, gdyby OP chciał zachować df w jednym formacie (np. bardziej wydajnym obliczeniowo lub oszczędzając pamięć na niepotrzebnych / pustych / zduplikowanych ciągach), ale renderować go wizualnie w bardziej przyjemny sposób. Nie wiedząc więcej o przypadku użycia, nie możemy być tego pewni.
smci

2

Spróbuj tego,

Dodaj inplace=True

import numpy as np
df.replace(np.NaN, ' ', inplace=True)

1

używanie keep_default_na=False powinno pomóc ci:

df = pd.read_csv(filename, keep_default_na=False)

0

Jeśli konwertujesz DataFrame na JSON, NaNwyświetli błąd, więc najlepszym rozwiązaniem jest w tym przypadku zastąpienie NaNgo None.
Oto jak:

df1 = df.where((pd.notnull(df)), None)

0

Próbowałem z jedną kolumną wartości ciągów z nan.

Aby usunąć nan i wypełnić pusty ciąg:

df.columnname.replace(np.nan,'',regex = True)

Aby usunąć nan i wypełnić niektóre wartości:

df.columnname.replace(np.nan,'value',regex = True)

Próbowałem też df.iloc. ale potrzebuje indeksu kolumny. więc musisz ponownie zajrzeć do stołu. po prostu powyższa metoda zmniejszyła jeden krok.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.