Powiedzmy, że mam tablicę NumPy a
:
a = np.array([
[1, 2, 3],
[2, 3, 4]
])
I chciałbym dodać kolumnę zer, aby uzyskać tablicę b
:
b = np.array([
[1, 2, 3, 0],
[2, 3, 4, 0]
])
Jak mogę to łatwo zrobić w NumPy?
Powiedzmy, że mam tablicę NumPy a
:
a = np.array([
[1, 2, 3],
[2, 3, 4]
])
I chciałbym dodać kolumnę zer, aby uzyskać tablicę b
:
b = np.array([
[1, 2, 3, 0],
[2, 3, 4, 0]
])
Jak mogę to łatwo zrobić w NumPy?
Odpowiedzi:
Myślę, że prostszym rozwiązaniem i szybszym uruchomieniem jest wykonanie następujących czynności:
import numpy as np
N = 10
a = np.random.rand(N,N)
b = np.zeros((N,N+1))
b[:,:-1] = a
I czasy:
In [23]: N = 10
In [24]: a = np.random.rand(N,N)
In [25]: %timeit b = np.hstack((a,np.zeros((a.shape[0],1))))
10000 loops, best of 3: 19.6 us per loop
In [27]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 5.62 us per loop
a = np.random.rand((N,N))
naa = np.random.rand(N,N)
np.r_[ ... ]
i np.c_[ ... ]
są użytecznymi alternatywami dla vstack
i hstack
, z nawiasami kwadratowymi [] zamiast round ().
Kilka przykładów:
: import numpy as np
: N = 3
: A = np.eye(N)
: np.c_[ A, np.ones(N) ] # add a column
array([[ 1., 0., 0., 1.],
[ 0., 1., 0., 1.],
[ 0., 0., 1., 1.]])
: np.c_[ np.ones(N), A, np.ones(N) ] # or two
array([[ 1., 1., 0., 0., 1.],
[ 1., 0., 1., 0., 1.],
[ 1., 0., 0., 1., 1.]])
: np.r_[ A, [A[1]] ] # add a row
array([[ 1., 0., 0.],
[ 0., 1., 0.],
[ 0., 0., 1.],
[ 0., 1., 0.]])
: # not np.r_[ A, A[1] ]
: np.r_[ A[0], 1, 2, 3, A[1] ] # mix vecs and scalars
array([ 1., 0., 0., 1., 2., 3., 0., 1., 0.])
: np.r_[ A[0], [1, 2, 3], A[1] ] # lists
array([ 1., 0., 0., 1., 2., 3., 0., 1., 0.])
: np.r_[ A[0], (1, 2, 3), A[1] ] # tuples
array([ 1., 0., 0., 1., 2., 3., 0., 1., 0.])
: np.r_[ A[0], 1:4, A[1] ] # same, 1:4 == arange(1,4) == 1,2,3
array([ 1., 0., 0., 1., 2., 3., 0., 1., 0.])
(Powodem nawiasów kwadratowych [] zamiast round () jest to, że Python rozwija np. 1: 4 w kwadracie - cuda przeciążenia.)
np.c_[ * iterable ]
; zobacz listy wyrażeń .
Użyj numpy.append
:
>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
[2, 3, 4]])
>>> z = np.zeros((2,1), dtype=int64)
>>> z
array([[0],
[0]])
>>> np.append(a, z, axis=1)
array([[1, 2, 3, 0],
[2, 3, 4, 0]])
append
faktycznie właśnie nazywaconcatenate
Jednym ze sposobów korzystania z hstack jest:
b = np.hstack((a, np.zeros((a.shape[0], 1), dtype=a.dtype)))
dtype
parametr, nie jest potrzebny, a nawet niedozwolony. Chociaż Twoje rozwiązanie jest wystarczająco eleganckie, nie używaj go, jeśli chcesz często „dołączać” do tablicy. Jeśli nie możesz utworzyć całej tablicy na raz i wypełnić ją później, utwórz listę tablic i hstack
to wszystko na raz.
Uważam, że następujące są najbardziej eleganckie:
b = np.insert(a, 3, values=0, axis=1) # Insert values before column 3
Zaletą insert
jest to, że pozwala również wstawiać kolumny (lub wiersze) w innych miejscach wewnątrz tablicy. Zamiast wstawiać pojedynczą wartość, możesz łatwo wstawić cały wektor, na przykład zduplikować ostatnią kolumnę:
b = np.insert(a, insert_index, values=a[:,2], axis=1)
Który prowadzi do:
array([[1, 2, 3, 3],
[2, 3, 4, 4]])
Jeśli chodzi o czas, insert
może być wolniejszy niż rozwiązanie JoshAdel:
In [1]: N = 10
In [2]: a = np.random.rand(N,N)
In [3]: %timeit b = np.hstack((a, np.zeros((a.shape[0], 1))))
100000 loops, best of 3: 7.5 µs per loop
In [4]: %timeit b = np.zeros((a.shape[0], a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 2.17 µs per loop
In [5]: %timeit b = np.insert(a, 3, values=0, axis=1)
100000 loops, best of 3: 10.2 µs per loop
insert(a, -1, ...)
dołączyć kolumny. Chyba po prostu to przygotuję.
a.shape[axis]
. I. e. jeśli dodajesz wiersz, robisz, np.insert(a, a.shape[0], 999, axis=0)
a dla kolumny - tak np.insert(a, a.shape[1], 999, axis=1)
.
Byłem także zainteresowany tym pytaniem i porównałem prędkość
numpy.c_[a, a]
numpy.stack([a, a]).T
numpy.vstack([a, a]).T
numpy.ascontiguousarray(numpy.stack([a, a]).T)
numpy.ascontiguousarray(numpy.vstack([a, a]).T)
numpy.column_stack([a, a])
numpy.concatenate([a[:,None], a[:,None]], axis=1)
numpy.concatenate([a[None], a[None]], axis=0).T
które wszystkie robią to samo dla dowolnego wektora wejściowego a
. Terminy uprawy a
:
Zauważ, że wszystkie niesąsiadujące warianty (w szczególności stack
/ vstack
) są ostatecznie szybsze niż wszystkie sąsiednie warianty. column_stack
(ze względu na przejrzystość i szybkość) wydaje się dobrą opcją, jeśli potrzebujesz ciągłości.
Kod do odtworzenia fabuły:
import numpy
import perfplot
perfplot.save(
"out.png",
setup=lambda n: numpy.random.rand(n),
kernels=[
lambda a: numpy.c_[a, a],
lambda a: numpy.ascontiguousarray(numpy.stack([a, a]).T),
lambda a: numpy.ascontiguousarray(numpy.vstack([a, a]).T),
lambda a: numpy.column_stack([a, a]),
lambda a: numpy.concatenate([a[:, None], a[:, None]], axis=1),
lambda a: numpy.ascontiguousarray(
numpy.concatenate([a[None], a[None]], axis=0).T
),
lambda a: numpy.stack([a, a]).T,
lambda a: numpy.vstack([a, a]).T,
lambda a: numpy.concatenate([a[None], a[None]], axis=0).T,
],
labels=[
"c_",
"ascont(stack)",
"ascont(vstack)",
"column_stack",
"concat",
"ascont(concat)",
"stack (non-cont)",
"vstack (non-cont)",
"concat (non-cont)",
],
n_range=[2 ** k for k in range(20)],
xlabel="len(a)",
logx=True,
logy=True,
)
stack
, hstack
, vstack
, column_stack
, dstack
są wszystkie funkcje pomocnicze zbudowane na górze np.concatenate
. Śledząc definicję stosu , znalazłem np.stack([a,a])
to, które wywołuje np.concatenate([a[None], a[None]], axis=0)
. np.concatenate([a[None], a[None]], axis=0).T
Przydałoby się dodać dodatek do perfplot, aby pokazać, że np.concatenate
zawsze może być co najmniej tak szybki, jak działa jego pomocnik.
c_
icolumn_stack
Myślę:
np.column_stack((a, zeros(shape(a)[0])))
jest bardziej elegancki.
np.concatenate również działa
>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
[2, 3, 4]])
>>> z = np.zeros((2,1))
>>> z
array([[ 0.],
[ 0.]])
>>> np.concatenate((a, z), axis=1)
array([[ 1., 2., 3., 0.],
[ 2., 3., 4., 0.]])
np.concatenate
wydaje się 3 razy szybszy niż np.hstack
dla matryc 2x1, 2x2 i 2x3. np.concatenate
było również bardzo nieznacznie szybsze niż ręczne kopiowanie macierzy do pustej matrycy w moich eksperymentach. Jest to zgodne z odpowiedzią Nico Schlömer poniżej.
Zakładając, że M
ndarray jest (100,3) i y
jest to (100) ndarray, append
można go użyć w następujący sposób:
M=numpy.append(M,y[:,None],1)
Sztuką jest użycie
y[:, None]
Konwertuje y
to na tablicę 2D (100, 1).
M.shape
teraz daje
(100, 4)
Podoba mi się odpowiedź JoshAdela ze względu na nacisk na wydajność. Niewielkim ulepszeniem wydajności jest uniknięcie narzutu inicjowania zerami, tylko w celu ich zastąpienia. Ma to mierzalną różnicę, gdy N jest duże, puste są używane zamiast zer, a kolumna zer jest zapisywana jako oddzielny krok:
In [1]: import numpy as np
In [2]: N = 10000
In [3]: a = np.ones((N,N))
In [4]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
1 loops, best of 3: 492 ms per loop
In [5]: %timeit b = np.empty((a.shape[0],a.shape[1]+1)); b[:,:-1] = a; b[:,-1] = np.zeros((a.shape[0],))
1 loops, best of 3: 407 ms per loop
b[:,-1] = 0
. Ponadto przy bardzo dużych tablicach różnica w wydajności np.insert()
staje się znikoma, co może być np.insert()
bardziej pożądane ze względu na zwięzłość.
np.insert
służy również celowi.
matA = np.array([[1,2,3],
[2,3,4]])
idx = 3
new_col = np.array([0, 0])
np.insert(matA, idx, new_col, axis=1)
array([[1, 2, 3, 0],
[2, 3, 4, 0]])
Wstawia wartości tutaj new_col
, przed danym indeksem, tutaj idx
wzdłuż jednej osi. Innymi słowy, nowo wstawione wartości zajmą idx
kolumnę i przesuną to, co pierwotnie tam było, i później idx
.
insert
nie jest na miejscu, jak można założyć, biorąc pod uwagę nazwę funkcji (patrz dokumenty połączone w odpowiedzi).
np.append
Metoda Numpy przyjmuje trzy parametry, pierwsze dwa są tablicami numpy 2D, a trzeci to parametr osi instruujący wzdłuż której osi dołączyć:
import numpy as np
x = np.array([[1,2,3], [4,5,6]])
print("Original x:")
print(x)
y = np.array([[1], [1]])
print("Original y:")
print(y)
print("x appended to y on axis of 1:")
print(np.append(x, y, axis=1))
Wydruki:
Original x:
[[1 2 3]
[4 5 6]]
Original y:
[[1]
[1]]
x appended to y on axis of 1:
[[1 2 3 1]
[4 5 6 1]]
W moim przypadku musiałem dodać kolumnę jedynek do tablicy NumPy
X = array([ 6.1101, 5.5277, ... ])
X.shape => (97,)
X = np.concatenate((np.ones((m,1), dtype=np.int), X.reshape(m,1)), axis=1)
Po X. kształt => (97, 2)
array([[ 1. , 6.1101],
[ 1. , 5.5277],
...
Istnieje specjalnie do tego funkcja. Nazywa się numpy.pad
a = np.array([[1,2,3], [2,3,4]])
b = np.pad(a, ((0, 0), (0, 1)), mode='constant', constant_values=0)
print b
>>> array([[1, 2, 3, 0],
[2, 3, 4, 0]])
Oto, co mówi w dokumentacji:
Pads an array.
Parameters
----------
array : array_like of rank N
Input array
pad_width : {sequence, array_like, int}
Number of values padded to the edges of each axis.
((before_1, after_1), ... (before_N, after_N)) unique pad widths
for each axis.
((before, after),) yields same before and after pad for each axis.
(pad,) or int is a shortcut for before = after = pad width for all
axes.
mode : str or function
One of the following string values or a user supplied function.
'constant'
Pads with a constant value.
'edge'
Pads with the edge values of array.
'linear_ramp'
Pads with the linear ramp between end_value and the
array edge value.
'maximum'
Pads with the maximum value of all or part of the
vector along each axis.
'mean'
Pads with the mean value of all or part of the
vector along each axis.
'median'
Pads with the median value of all or part of the
vector along each axis.
'minimum'
Pads with the minimum value of all or part of the
vector along each axis.
'reflect'
Pads with the reflection of the vector mirrored on
the first and last values of the vector along each
axis.
'symmetric'
Pads with the reflection of the vector mirrored
along the edge of the array.
'wrap'
Pads with the wrap of the vector along the axis.
The first values are used to pad the end and the
end values are used to pad the beginning.
<function>
Padding function, see Notes.
stat_length : sequence or int, optional
Used in 'maximum', 'mean', 'median', and 'minimum'. Number of
values at edge of each axis used to calculate the statistic value.
((before_1, after_1), ... (before_N, after_N)) unique statistic
lengths for each axis.
((before, after),) yields same before and after statistic lengths
for each axis.
(stat_length,) or int is a shortcut for before = after = statistic
length for all axes.
Default is ``None``, to use the entire axis.
constant_values : sequence or int, optional
Used in 'constant'. The values to set the padded values for each
axis.
((before_1, after_1), ... (before_N, after_N)) unique pad constants
for each axis.
((before, after),) yields same before and after constants for each
axis.
(constant,) or int is a shortcut for before = after = constant for
all axes.
Default is 0.
end_values : sequence or int, optional
Used in 'linear_ramp'. The values used for the ending value of the
linear_ramp and that will form the edge of the padded array.
((before_1, after_1), ... (before_N, after_N)) unique end values
for each axis.
((before, after),) yields same before and after end values for each
axis.
(constant,) or int is a shortcut for before = after = end value for
all axes.
Default is 0.
reflect_type : {'even', 'odd'}, optional
Used in 'reflect', and 'symmetric'. The 'even' style is the
default with an unaltered reflection around the edge value. For
the 'odd' style, the extented part of the array is created by
subtracting the reflected values from two times the edge value.
Returns
-------
pad : ndarray
Padded array of rank equal to `array` with shape increased
according to `pad_width`.
Notes
-----
.. versionadded:: 1.7.0
For an array with rank greater than 1, some of the padding of later
axes is calculated from padding of previous axes. This is easiest to
think about with a rank 2 array where the corners of the padded array
are calculated by using padded values from the first axis.
The padding function, if used, should return a rank 1 array equal in
length to the vector argument with padded values replaced. It has the
following signature::
padding_func(vector, iaxis_pad_width, iaxis, kwargs)
where
vector : ndarray
A rank 1 array already padded with zeros. Padded values are
vector[:pad_tuple[0]] and vector[-pad_tuple[1]:].
iaxis_pad_width : tuple
A 2-tuple of ints, iaxis_pad_width[0] represents the number of
values padded at the beginning of vector where
iaxis_pad_width[1] represents the number of values padded at
the end of vector.
iaxis : int
The axis currently being calculated.
kwargs : dict
Any keyword arguments the function requires.
Examples
--------
>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2,3), 'constant', constant_values=(4, 6))
array([4, 4, 1, 2, 3, 4, 5, 6, 6, 6])
>>> np.pad(a, (2, 3), 'edge')
array([1, 1, 1, 2, 3, 4, 5, 5, 5, 5])
>>> np.pad(a, (2, 3), 'linear_ramp', end_values=(5, -4))
array([ 5, 3, 1, 2, 3, 4, 5, 2, -1, -4])
>>> np.pad(a, (2,), 'maximum')
array([5, 5, 1, 2, 3, 4, 5, 5, 5])
>>> np.pad(a, (2,), 'mean')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])
>>> np.pad(a, (2,), 'median')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])
>>> a = [[1, 2], [3, 4]]
>>> np.pad(a, ((3, 2), (2, 3)), 'minimum')
array([[1, 1, 1, 2, 1, 1, 1],
[1, 1, 1, 2, 1, 1, 1],
[1, 1, 1, 2, 1, 1, 1],
[1, 1, 1, 2, 1, 1, 1],
[3, 3, 3, 4, 3, 3, 3],
[1, 1, 1, 2, 1, 1, 1],
[1, 1, 1, 2, 1, 1, 1]])
>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2, 3), 'reflect')
array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2])
>>> np.pad(a, (2, 3), 'reflect', reflect_type='odd')
array([-1, 0, 1, 2, 3, 4, 5, 6, 7, 8])
>>> np.pad(a, (2, 3), 'symmetric')
array([2, 1, 1, 2, 3, 4, 5, 5, 4, 3])
>>> np.pad(a, (2, 3), 'symmetric', reflect_type='odd')
array([0, 1, 1, 2, 3, 4, 5, 5, 6, 7])
>>> np.pad(a, (2, 3), 'wrap')
array([4, 5, 1, 2, 3, 4, 5, 1, 2, 3])
>>> def pad_with(vector, pad_width, iaxis, kwargs):
... pad_value = kwargs.get('padder', 10)
... vector[:pad_width[0]] = pad_value
... vector[-pad_width[1]:] = pad_value
... return vector
>>> a = np.arange(6)
>>> a = a.reshape((2, 3))
>>> np.pad(a, 2, pad_with)
array([[10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10],
[10, 10, 0, 1, 2, 10, 10],
[10, 10, 3, 4, 5, 10, 10],
[10, 10, 10, 10, 10, 10, 10],
[10, 10, 10, 10, 10, 10, 10]])
>>> np.pad(a, 2, pad_with, padder=100)
array([[100, 100, 100, 100, 100, 100, 100],
[100, 100, 100, 100, 100, 100, 100],
[100, 100, 0, 1, 2, 100, 100],
[100, 100, 3, 4, 5, 100, 100],
[100, 100, 100, 100, 100, 100, 100],
[100, 100, 100, 100, 100, 100, 100]])