Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Ostatnio widzieliśmy pojawienie się Residual Neural Net, w której każda warstwa składa się z modułu obliczeniowego i połączenia skrótowego, które zachowuje dane wejściowe do warstwy, takie jak dane wyjściowe z i-tej warstwy: Sieć pozwala wydobyć pozostałe cechy i pozwala na głębszą głębię, będąc jednocześnie bardziej odporna na znikający problem gradientu, …
Czytałem artykuł normalizacyjny partii [1] i miał jedną sekcję, w której znajduje się przykład, próbując pokazać, dlaczego normalizacja musi być wykonana ostrożnie. Szczerze mówiąc, nie rozumiem, jak działa ten przykład, i naprawdę jestem bardzo ciekawy, jak rozumieją, jak drukują. Najpierw pozwól mi zacytować to tutaj: Rozważmy na przykład warstwę z …
Używam feed-forward NN. Rozumiem tę koncepcję, ale moje pytanie dotyczy wag. Jak możesz je interpretować, tj. Co one reprezentują lub jak można je zniszczyć (oprócz współczynników funkcji)? Znalazłem coś, co nazywa się „przestrzenią ciężarów”, ale nie jestem pewien, co to znaczy.
Próbuję użyć sieci neuronowej w celu przybliżenia wartości Q w Q-learningu, tak jak w pytaniach dotyczących Q-Learning z wykorzystaniem sieci neuronowych . Jak zasugerowano w pierwszej odpowiedzi, używam liniowej funkcji aktywacji dla warstwy wyjściowej, podczas gdy nadal używam funkcji aktywacji sigmoidalnej w ukrytych warstwach (2, chociaż mogę to zmienić później). …
Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec. W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową W. Jednak w przypadku pominięcia gram, wektor słowa wejściowego …
Załóżmy, że chcę nauczyć się klasyfikatora, który przyjmuje wektor liczb jako dane wejściowe i podaje etykietę klasy jako dane wyjściowe. Moje dane treningowe składają się z dużej liczby par przepływów międzygałęziowych. Jednak kiedy przechodzę do testowania niektórych nowych danych, dane te są zwykle tylko częściowo kompletne. Na przykład, jeśli wektor …
Nie jestem pewien, czy jest to odpowiednie dla tej witryny, ale rozpoczynam studia magisterskie z informatyki (BS w matematyce stosowanej) i chcę uzyskać solidne doświadczenie w uczeniu maszynowym (najprawdopodobniej zamierzam doktorat). Jednym z moich sub-zainteresowań są sieci neuronowe. Jakie jest dobre podłoże matematyczne dla ANN? Podobnie jak w innych obszarach …
Zastanawiałem się, czy w pewnych okolicznościach jest możliwe, aby ANN działały lepiej, jeśli odetniesz na nich niektóre połączenia, na przykład: Konstruujesz jeden ANN, biorąc równolegle dwa wielowarstwowe ANN A i B (te same węzły wejściowe i wyjściowe), dodając kilka połączeń „komunikacyjnych” między ukrytymi warstwami A i B? Czy można uzyskać …
Zaczynam od głębokiego uczenia się i mam pytanie, na które nie mogłem znaleźć odpowiedzi, być może nie szukałem właściwie. Widziałem tę odpowiedź , ale nadal nie jest jasne, jaka jest utrata masy ciała i jak to jest związane z funkcją utraty.
Próbuję wytrenować głęboką sieć neuronową do klasyfikacji, wykorzystując propagację wsteczną. W szczególności używam splotowej sieci neuronowej do klasyfikacji obrazów, korzystając z biblioteki Tensor Flow. Podczas treningu doświadczam dziwnego zachowania i zastanawiam się, czy jest to typowe, czy też robię coś złego. Tak więc moja splotowa sieć neuronowa ma 8 warstw …
Idea Recurrent Neural Network (RNN) jest dla mnie jasna. Rozumiem to w następujący sposób: Mamy sekwencję obserwacji ( ) (lub innymi słowy, wielowymiarowe szeregi czasowe). Każda pojedyncza obserwacja jest wymiarową wektor numeryczne. W modelu RNN zakładamy, że następna obserwacja jest funkcją wcześniejszej obserwacji a także poprzedniego „stanu ukrytego” , gdzie …
Patrzę na funkcję kosztu entropii znalezioną w tym samouczku : do= - 1n∑x[ ylna + ( 1 - y) ln( 1 - a ) ]do=-1n∑x[ylnza+(1-y)ln(1-za)]C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] Co dokładnie sumujemy? Jest to oczywiście ponad , ale i a nie zmieniają się z x . Wszystkie x …
Zastanawiałem się, czy można wyszkolić maszynę SVM (powiedzmy liniową, aby ułatwić) za pomocą propagacji wstecznej? Obecnie jestem w bloku drogowego, ponieważ mogę tylko myśleć o pisaniu wyjście klasyfikatora jako fa( x ; θ , b ) = sgn ( θ ⋅ x - ( b + 1 ) ) = …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.