Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Przeczytałem tę stronę: http://neuralnetworksanddeeplearning.com/chap3.html i powiedział, że sigmoidalna warstwa wyjściowa z entropią krzyżową jest dość podobna do warstwy wyjściowej softmax z prawdopodobieństwem logarytmicznym. co się stanie, jeśli użyję sigmoid z logarytmem prawdopodobieństwa lub softmax z entropią krzyżową w warstwie wyjściowej? czy to w porządku? ponieważ widzę, że istnieje niewielka różnica …
Sieć neuronowa uczy się cech zestawu danych jako sposobu na osiągnięcie pewnego celu. Po zakończeniu możemy chcieć dowiedzieć się, czego nauczyła się sieć neuronowa. Jakie były funkcje i dlaczego o to dbano. Czy ktoś może podać jakieś referencje na temat pracy, która dotyczy tego problemu?
[To pytanie zadawano również przy przepełnieniu stosu] Pytanie w skrócie Badam splotowe sieci neuronowe i uważam, że sieci te nie traktują każdego neuronu wejściowego (piksela / parametru) w sposób równoważny. Wyobraź sobie, że mamy głęboką sieć (wiele warstw), która stosuje splot na niektórych obrazach wejściowych. Neurony w „środku” obrazu mają …
Jaka jest różnica pomiędzy sieci neuronowych , sieci Bayesa , drzewa decyzyjnego i sieci Petriego , chociaż one są wszystkie modele graficzne i wizualnie przedstawiają przyczynowo-skutkowy.
Czytałem artykuł Klasyfikacja ImageNet z głębokimi sieciami neuronowymi splotowymi, aw części 3, w której wyjaśnili architekturę swojej sieci neuronowej splotowej, wyjaśnili, w jaki sposób woleli: nieliniowa nieliniowośćf(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). ponieważ trenowanie było szybsze. W tym artykule wydaje się, że odnoszą się one do nasycenia nieliniowości jako bardziej tradycyjnych funkcji …
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
Dlaczego w sieciach neuronowych wykorzystywane są węzły stronniczości? Ile powinieneś użyć? Na jakich warstwach należy ich użyć: wszystkie ukryte warstwy i warstwa wyjściowa?
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …
Uczę prostej sieci neuronowej na zbiorze danych CIFAR10. Po pewnym czasie utrata walidacji zaczęła rosnąć, a dokładność walidacji również rośnie. Utrata i dokładność testu stale się poprawiają. Jak to jest możliwe? Wydaje się, że w przypadku wzrostu utraty walidacji dokładność powinna się zmniejszyć. PS Jest kilka podobnych pytań, ale nikt …
W przypadku modeli statystycznych i uczenia maszynowego istnieje wiele poziomów interpretacji: 1) algorytm jako całość, 2) części algorytmu ogólnie 3) części algorytmu na poszczególnych wejściach, a te trzy poziomy są podzielone na dwie części, jeden do treningu, a drugi do oceny funkcji. Ostatnie dwie części są znacznie bliższe niż pierwsze. …
Kiedy trenujesz sieci neuronowe segmentujące piksele, takie jak sieci w pełni splotowe, jak podejmiesz decyzję o zastosowaniu funkcji utraty krzyżowej entropii w porównaniu z funkcją utraty współczynnika kości? Zdaję sobie sprawę, że to krótkie pytanie, ale nie jestem pewien, jakie inne informacje podać. Przejrzałem całą dokumentację na temat dwóch funkcji …
Powiedzmy, że chcemy wykonać regresję dla prostego f = x * yużycia standardowej głębokiej sieci neuronowej. Pamiętam, że istnieją powtórzenia, które mówią, że NN z jedną warstwą ukrytą może apoksymować dowolną funkcję, ale próbowałem i bez normalizacji NN nie był w stanie zbliżyć nawet tego prostego mnożenia. Pomogła tylko normalizacja …
Co to jest badanie ablacyjne? I czy istnieje systematyczny sposób, aby to wykonać? Na przykład mam predyktorów w regresji liniowej, którą nazwiebym jako mój model.nnn Jak przeprowadzę do tego badanie ablacyjne? Jakich wskaźników powinienem użyć? Docenione zostanie kompleksowe źródło lub podręcznik.
Przeczytałem tutaj : Wyjścia sigmoidalne nie są wyśrodkowane na zero . Jest to niepożądane, ponieważ neurony w późniejszych warstwach przetwarzania w sieci neuronowej (więcej o tym wkrótce) otrzymywałyby dane, które nie są wyśrodkowane. Ma to wpływ na dynamikę podczas opadania gradientu, ponieważ jeśli dane wchodzące do neuronu są zawsze dodatnie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.