Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Załóżmy, że mam prostą jednowarstwową sieć neuronową z n wejściami i jednym wyjściem (zadanie klasyfikacji binarnej). Jeśli ustawię funkcję aktywacji w węźle wyjściowym jako funkcję sigmoidalną, wówczas wynikiem będzie klasyfikator regresji logistycznej. W tym samym scenariuszu, jeśli zmienię aktywację wyjścia na ReLU (rektyfikowaną jednostkę liniową), to czy uzyskana struktura jest …
Problemy klasyfikacyjne z nieliniowymi granicami nie mogą być rozwiązane przez prosty perceptron . Poniższy kod R służy do celów ilustracyjnych i jest oparty na tym przykładzie w języku Python): nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, …
Rozumiem, że szkolenie wstępne jest stosowane, aby uniknąć niektórych problemów z konwencjonalnym treningiem. Jeśli używam propagacji wstecznej z, powiedzmy autoencoderem, wiem, że napotkam problemy z czasem, ponieważ propagacja wsteczna jest powolna, a także że mogę utknąć w lokalnych optymach i nie nauczyć się niektórych funkcji. To, czego nie rozumiem, to …
W zadaniach widzenia komputerowego, takich jak klasyfikacja obiektów, z sieciami neuronowymi o konwergencji (CNN) sieć zapewnia atrakcyjną wydajność. Ale nie jestem pewien, jak ustawić parametry w warstwach splotowych. Na przykład obraz w skali szarości ( 480x480), pierwsza warstwa splotowa może wykorzystywać operator splotowy podobny 11x11x10, gdzie liczba 10 oznacza liczbę …
Słyszałem trochę o używaniu sieci neuronowych do prognozowania szeregów czasowych. Jak mogę porównać, która metoda prognozowania moich szeregów czasowych (dziennych danych detalicznych) jest lepsza: auto.arima (x), ets (x) lub nnetar (x). Mogę porównać auto.arima z ets przez AIC lub BIC. Ale jak mogę je porównać z sieciami neuronowymi? Na przykład: …
Jestem nowy w analizie przeżycia, a ostatnio dowiedziałem się, że istnieją różne sposoby, aby osiągnąć określony cel. Interesuje mnie faktyczne wdrożenie i odpowiedniość tych metod. Przedstawiono mi tradycyjne Cox Proporcjonalne zagrożenia , modele przyspieszonego czasu awarii i sieci neuronowe (perceptron wielowarstwowy) jako metody pozwalające na przeżycie pacjenta, biorąc pod uwagę …
Doszedłem do sytuacji, w której wagi mojej sieci neuronowej nie są zbieżne nawet po 500 iteracjach. Moja sieć neuronowa zawiera 1 warstwę wejściową, 1 warstwę ukrytą i 1 warstwę wyjściową. Są to około 230 węzłów w warstwie wejściowej, 9 węzłów w warstwie ukrytej i 1 węzeł wyjściowy w warstwie wyjściowej. …
Zarówno funkcja logistyczna, jak i odchylenie standardowe są zwykle oznaczane . Będziemy używać i y dla standardowego odchylenia.σ ( x ) = 1 / ( 1 + exp ( - x ) ) sσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp(−x))\sigma(x) = 1/(1+\exp(-x))sss Mam logistycznego neuron z wejściem losowej którego średnia μμ\mu i odchylenie standardowe sss wiem. …
W dokumentach AlphaGo Zero i AlphaZero DeepMind opisują dodawanie szumu Dirichleta do wcześniejszych prawdopodobieństw działań z węzła głównego (stanu płyty) w wyszukiwaniu drzewa Monte Carlo: Dodatkową eksplorację osiąga się, dodając szum Dirichleta do wcześniejszych prawdopodobieństw w węźle głównym s0s0s_0, konkretnie P.( s , a ) = ( 1 - ε …
W artykule zatytułowanym Głębokie uczenie się i zasada wąskiego gardła informacji autorzy stwierdzają w sekcji II A), co następuje: Pojedyncze neurony klasyfikują tylko liniowo separowalne dane wejściowe, ponieważ mogą implementować tylko hiperpłaszczyzny w swojej przestrzeni wejściowej u=wh+bu=wh+bu = wh+b. Hiperplany mogą optymalnie klasyfikować dane, gdy dane wejściowe są warunkowo niezależne. …
W najnowszym artykule WaveNet autorzy odnoszą się do swojego modelu jako stosu warstw rozszerzonych splotów. Tworzą również następujące wykresy wyjaśniające różnicę między zwinięciem „zwykłym” a zwężeniem rozszerzonym. Wyglądają zwykłe sploty Jest to splot o wielkości filtra 2 i kroku 1, powtarzany dla 4 warstw. Następnie pokazują architekturę stosowaną przez ich …
Przeczytałem o maszynach SVM i dowiedziałem się, że rozwiązują one problem optymalizacji, a maksymalny margines był bardzo rozsądny. Teraz, za pomocą jąder, mogą znaleźć nawet nieliniowe granice separacji, co było świetne. Jak dotąd naprawdę nie mam pojęcia, w jaki sposób SVM (specjalna maszyna jądra) i maszyny jądra są powiązane z …
Korzystam z dwukierunkowego RNN, aby wykryć zdarzenie niezrównoważonego wystąpienia. Klasa dodatnia jest 100 razy rzadziej niż klasa negatywna. Chociaż nie używa się regularyzacji, mogę uzyskać 100% dokładności na zestawie pociągów i 30% na zestawie walidacji. Włączam regularyzację l2, a wynik to tylko 30% dokładności na zestawie pociągów zamiast dłuższego uczenia …
Uczę się o głębokim uczeniu się (w szczególności CNN) i o tym, jak zwykle wymaga ogromnej ilości danych, aby zapobiec nadmiernemu dopasowaniu. Jednak powiedziano mi również, że im wyższa pojemność / więcej parametrów modelu, tym więcej danych jest wymaganych, aby zapobiec nadmiernemu dopasowaniu. Dlatego moje pytanie brzmi: dlaczego nie możesz …
Próbuję zrozumieć architekturę RNN. Znalazłem ten samouczek, który był bardzo pomocny: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Zwłaszcza ten obraz: Jak to pasuje do sieci feed-forward? Czy ten obraz jest po prostu innym węzłem w każdej warstwie?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.