Jeśli chcesz uniknąć kosztów pamięci związanych z konwersją do serii krotek lub innej podobnej struktury danych, możesz wykorzystać tablice strukturalne numpy.
Sztuką jest wyświetlenie oryginalnej tablicy jako tablicy strukturalnej, w której każdy element odpowiada rzędowi oryginalnej tablicy. To nie tworzy kopii i jest dość wydajne.
Jako szybki przykład:
import numpy as np
data = np.array([[1, 1, 1, 0, 0, 0],
[0, 1, 1, 1, 0, 0],
[0, 1, 1, 1, 0, 0],
[1, 1, 1, 0, 0, 0],
[1, 1, 1, 1, 1, 0]])
ncols = data.shape[1]
dtype = data.dtype.descr * ncols
struct = data.view(dtype)
uniq = np.unique(struct)
uniq = uniq.view(data.dtype).reshape(-1, ncols)
print uniq
Aby zrozumieć, co się dzieje, spójrz na wyniki pośrednie.
Gdy zobaczymy rzeczy jako tablicę strukturalną, każdy element w tablicy jest wierszem w oryginalnej tablicy. (Zasadniczo jest to struktura danych podobna do listy krotek).
In [71]: struct
Out[71]:
array([[(1, 1, 1, 0, 0, 0)],
[(0, 1, 1, 1, 0, 0)],
[(0, 1, 1, 1, 0, 0)],
[(1, 1, 1, 0, 0, 0)],
[(1, 1, 1, 1, 1, 0)]],
dtype=[('f0', '<i8'), ('f1', '<i8'), ('f2', '<i8'), ('f3', '<i8'), ('f4', '<i8'), ('f5', '<i8')])
In [72]: struct[0]
Out[72]:
array([(1, 1, 1, 0, 0, 0)],
dtype=[('f0', '<i8'), ('f1', '<i8'), ('f2', '<i8'), ('f3', '<i8'), ('f4', '<i8'), ('f5', '<i8')])
Po uruchomieniu numpy.unique
otrzymamy tablicę strukturalną:
In [73]: np.unique(struct)
Out[73]:
array([(0, 1, 1, 1, 0, 0), (1, 1, 1, 0, 0, 0), (1, 1, 1, 1, 1, 0)],
dtype=[('f0', '<i8'), ('f1', '<i8'), ('f2', '<i8'), ('f3', '<i8'), ('f4', '<i8'), ('f5', '<i8')])
To, co musimy następnie zobaczyć jako „normalną” tablicę ( _
przechowuje wynik ostatniego obliczenia ipython
, dlatego właśnie widzisz _.view...
):
In [74]: _.view(data.dtype)
Out[74]: array([0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0])
A następnie przekształć z powrotem w tablicę 2D ( -1
jest symbolem zastępczym, który każe numpy obliczyć prawidłową liczbę wierszy, podać liczbę kolumn):
In [75]: _.reshape(-1, ncols)
Out[75]:
array([[0, 1, 1, 1, 0, 0],
[1, 1, 1, 0, 0, 0],
[1, 1, 1, 1, 1, 0]])
Oczywiście, jeśli chcesz być bardziej zwięzły, możesz napisać to jako:
import numpy as np
def unique_rows(data):
uniq = np.unique(data.view(data.dtype.descr * data.shape[1]))
return uniq.view(data.dtype).reshape(-1, data.shape[1])
data = np.array([[1, 1, 1, 0, 0, 0],
[0, 1, 1, 1, 0, 0],
[0, 1, 1, 1, 0, 0],
[1, 1, 1, 0, 0, 0],
[1, 1, 1, 1, 1, 0]])
print unique_rows(data)
Co skutkuje w:
[[0 1 1 1 0 0]
[1 1 1 0 0 0]
[1 1 1 1 1 0]]