Pytania otagowane jako neural-networks

Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.

1
Jednowarstwowa sieć neuronowa z aktywacją ReLU równą SVM?
Załóżmy, że mam prostą jednowarstwową sieć neuronową z n wejściami i jednym wyjściem (zadanie klasyfikacji binarnej). Jeśli ustawię funkcję aktywacji w węźle wyjściowym jako funkcję sigmoidalną, wówczas wynikiem będzie klasyfikator regresji logistycznej. W tym samym scenariuszu, jeśli zmienię aktywację wyjścia na ReLU (rektyfikowaną jednostkę liniową), to czy uzyskana struktura jest …

1
Jak jądro prostego perceptronu?
Problemy klasyfikacyjne z nieliniowymi granicami nie mogą być rozwiązane przez prosty perceptron . Poniższy kod R służy do celów ilustracyjnych i jest oparty na tym przykładzie w języku Python): nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, …

2
Co to jest wstępne szkolenie i jak wstępnie szkolić sieć neuronową?
Rozumiem, że szkolenie wstępne jest stosowane, aby uniknąć niektórych problemów z konwencjonalnym treningiem. Jeśli używam propagacji wstecznej z, powiedzmy autoencoderem, wiem, że napotkam problemy z czasem, ponieważ propagacja wsteczna jest powolna, a także że mogę utknąć w lokalnych optymach i nie nauczyć się niektórych funkcji. To, czego nie rozumiem, to …

1
Jak określić liczbę operatorów splotowych w CNN?
W zadaniach widzenia komputerowego, takich jak klasyfikacja obiektów, z sieciami neuronowymi o konwergencji (CNN) sieć zapewnia atrakcyjną wydajność. Ale nie jestem pewien, jak ustawić parametry w warstwach splotowych. Na przykład obraz w skali szarości ( 480x480), pierwsza warstwa splotowa może wykorzystywać operator splotowy podobny 11x11x10, gdzie liczba 10 oznacza liczbę …

4
Prognozowanie szeregów czasowych R za pomocą sieci neuronowej, auto.arima i ets
Słyszałem trochę o używaniu sieci neuronowych do prognozowania szeregów czasowych. Jak mogę porównać, która metoda prognozowania moich szeregów czasowych (dziennych danych detalicznych) jest lepsza: auto.arima (x), ets (x) lub nnetar (x). Mogę porównać auto.arima z ets przez AIC lub BIC. Ale jak mogę je porównać z sieciami neuronowymi? Na przykład: …

1
Porównanie CPH, modelu przyspieszonego czasu awarii lub sieci neuronowych do analizy przeżycia
Jestem nowy w analizie przeżycia, a ostatnio dowiedziałem się, że istnieją różne sposoby, aby osiągnąć określony cel. Interesuje mnie faktyczne wdrożenie i odpowiedniość tych metod. Przedstawiono mi tradycyjne Cox Proporcjonalne zagrożenia , modele przyspieszonego czasu awarii i sieci neuronowe (perceptron wielowarstwowy) jako metody pozwalające na przeżycie pacjenta, biorąc pod uwagę …

4
Zbieżność wag sieci neuronowej
Doszedłem do sytuacji, w której wagi mojej sieci neuronowej nie są zbieżne nawet po 500 iteracjach. Moja sieć neuronowa zawiera 1 warstwę wejściową, 1 warstwę ukrytą i 1 warstwę wyjściową. Są to około 230 węzłów w warstwie wejściowej, 9 węzłów w warstwie ukrytej i 1 węzeł wyjściowy w warstwie wyjściowej. …

2
Oczekiwana wartość losowej zmiennej Gaussa przekształconej funkcją logistyczną
Zarówno funkcja logistyczna, jak i odchylenie standardowe są zwykle oznaczane . Będziemy używać i y dla standardowego odchylenia.σ ( x ) = 1 / ( 1 + exp ( - x ) ) sσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss Mam logistycznego neuron z wejściem losowej którego średnia μμ\mu i odchylenie standardowe sss wiem. …

2
Cel hałasu Dirichleta w pracy AlphaZero
W dokumentach AlphaGo Zero i AlphaZero DeepMind opisują dodawanie szumu Dirichleta do wcześniejszych prawdopodobieństw działań z węzła głównego (stanu płyty) w wyszukiwaniu drzewa Monte Carlo: Dodatkową eksplorację osiąga się, dodając szum Dirichleta do wcześniejszych prawdopodobieństw w węźle głównym s0s0s_0, konkretnie P.( s , a ) = ( 1 - ε …

3
Hiperplany optymalnie klasyfikują dane, gdy dane wejściowe są warunkowo niezależne - dlaczego?
W artykule zatytułowanym Głębokie uczenie się i zasada wąskiego gardła informacji autorzy stwierdzają w sekcji II A), co następuje: Pojedyncze neurony klasyfikują tylko liniowo separowalne dane wejściowe, ponieważ mogą implementować tylko hiperpłaszczyzny w swojej przestrzeni wejściowej u=wh+bu=wh+bu = wh+b. Hiperplany mogą optymalnie klasyfikować dane, gdy dane wejściowe są warunkowo niezależne. …

2
WaveNet nie jest tak naprawdę rozszerzonym splotem, prawda?
W najnowszym artykule WaveNet autorzy odnoszą się do swojego modelu jako stosu warstw rozszerzonych splotów. Tworzą również następujące wykresy wyjaśniające różnicę między zwinięciem „zwykłym” a zwężeniem rozszerzonym. Wyglądają zwykłe sploty Jest to splot o wielkości filtra 2 i kroku 1, powtarzany dla 4 warstw. Następnie pokazują architekturę stosowaną przez ich …


1
RNN z L2 Regulararyzacja przestaje się uczyć
Korzystam z dwukierunkowego RNN, aby wykryć zdarzenie niezrównoważonego wystąpienia. Klasa dodatnia jest 100 razy rzadziej niż klasa negatywna. Chociaż nie używa się regularyzacji, mogę uzyskać 100% dokładności na zestawie pociągów i 30% na zestawie walidacji. Włączam regularyzację l2, a wynik to tylko 30% dokładności na zestawie pociągów zamiast dłuższego uczenia …


3
Struktura rekurencyjnej sieci neuronowej (LSTM, GRU)
Próbuję zrozumieć architekturę RNN. Znalazłem ten samouczek, który był bardzo pomocny: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Zwłaszcza ten obraz: Jak to pasuje do sieci feed-forward? Czy ten obraz jest po prostu innym węzłem w każdej warstwie?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.