Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest zasadniczo RNN z pętlą sprzężenia zwrotnego?
Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.
Używałem theano do eksperymentowania z LSTM i zastanawiałem się, jakie metody optymalizacji (SGD, Adagrad, Adadelta, RMSprop, Adam itp.) Działają najlepiej dla LSTM? Czy są jakieś prace badawcze na ten temat? Czy odpowiedź zależy również od rodzaju aplikacji, dla której używam LSTM? Jeśli tak, używam LSTM do klasyfikacji tekstu (gdzie tekst …
Dlaczego propagacja wsteczna nie działa, gdy inicjujesz całą wagę o tej samej wartości (powiedzmy 0,5), ale działa dobrze, gdy otrzymujesz liczby losowe? Czy algorytm nie powinien obliczyć błędu i działać stamtąd, mimo że początkowo wagi są takie same?
Jeśli chodzi o żargon sieci neuronowej (y = waga * x + odchylenie), skąd mam wiedzieć, które zmienne są ważniejsze od innych? Mam sieć neuronową z 10 wejściami, 1 ukrytą warstwą z 20 węzłami i 1 warstwą wyjściową, która ma 1 węzeł. Nie jestem pewien, jak się dowiedzieć, które zmienne …
Pracuję nad klasyfikacją etapu snu. Czytałem niektóre artykuły badawcze na ten temat, wiele z nich używało SVM lub metody ensemble. Czy dobrym pomysłem jest użycie splotowej sieci neuronowej do klasyfikacji jednowymiarowego sygnału EEG? Jestem nowy w tego rodzaju pracy. Wybacz mi, jeśli poproszę o coś złego?
Mam bardzo prosty problem, ale nie mogę znaleźć odpowiedniego narzędzia do jego rozwiązania. Mam sekwencję wektorów o tej samej długości. Teraz chciałbym trenować LSTM RNN na próbce pociągu tych sekwencji, a następnie sprawić, by przewidział nową sekwencję wektorów o długości na podstawie kilku wektorów startowych .nnn Nie mogę znaleźć prostej …
Ciekaw jestem, jak ważny jest węzeł stronniczości dla skuteczności nowoczesnych sieci neuronowych. Z łatwością rozumiem, że może to być ważne w płytkiej sieci z zaledwie kilkoma zmiennymi wejściowymi. Jednak współczesne sieci neuronowe, takie jak głębokie uczenie się, często mają dużą liczbę zmiennych wejściowych, które decydują, czy dany neuron zostanie wyzwolony. …
RNN może być wykorzystywany do przewidywania lub mapowania sekwencji do sekwencji. Ale w jaki sposób można użyć RNN do klasyfikacji? Dajemy całej sekwencji jedną etykietę.
Rozumiem warstwy splotowe i łączące, ale nie widzę powodu w pełni połączonej warstwy w sieciach CNN. Dlaczego poprzednia warstwa nie jest bezpośrednio połączona z warstwą wyjściową?
Aby użyć SVM lub sieci neuronowej, należy przekształcić (zakodować) zmienne kategorialne w zmienne numeryczne, normalną metodą w tym przypadku jest użycie wartości binarnych 0-1 z przekształconą k-tą wartością kategorialną na (0,0, .. ., 1,0, ... 0) (1 jest w pozycji k-tej). Czy istnieją inne metody, aby to zrobić, zwłaszcza gdy …
Często słyszę ludzi rozmawiających o sieciach neuronowych jako czegoś w rodzaju czarnej skrzynki, której nie rozumiesz, co to znaczy lub co one oznaczają. Właściwie nie rozumiem, co przez to rozumieją! Jeśli rozumiesz, jak działa propagacja wsteczna, jak to jest czarna skrzynka? Czy oznaczają, że nie rozumiemy, w jaki sposób obliczone …
Mam lekką dezorientację na wstecznej propagacji błędów algorytmu stosowanego w perceptronu wielowarstwowego (MLP). Błąd jest regulowana przez funkcję kosztów. W wstecznej propagacji błędów, staramy się dostosować ciężar warstw ukrytych. Błąd wyjściowy, który rozumiem, to znaczy e = d - y[Bez indeksów dolnych]. Pytania są następujące: W jaki sposób można uzyskać …
Pracując nad problemem regresji, zacząłem myśleć o przedstawieniu funkcji „dzień tygodnia”. Zastanawiam się, które podejście działałoby lepiej: jedna cecha; wartość 1/7 dla poniedziałku; 2/7 na wtorek ... 7 funkcji: (1, 0, 0, 0, 0, 0, 0) na poniedziałek; (0, 1, 0, 0, 0, 0, 0) na wtorek ... Trudno to …
Pytanie może brzmieć nieco dziwnie, ponieważ jestem nowy w wnioskowaniu statystycznym i sieciach neuronowych. Kiedy w problemach z klasyfikacją za pomocą sieci neuronowych mówimy, że chcemy nauczyć się funkcji która odwzorowuje przestrzeń wejściową na przestrzeń wyjściową :f∗f∗f^*xxxyyy f∗(x;θ)=yf∗(x;θ)=yf^*(x; \theta) = y Czy dopasowujemy parametry ( ) do modelowania funkcji nieliniowej …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.