Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Niedawno pracowałem nad uczeniem się algorytmów wzmacniających, takich jak adaboost, zwiększanie gradientu i wiedziałem, że najczęściej używanym słabym uczniem są drzewa. Naprawdę chcę wiedzieć, czy istnieją pewne udane przykłady (mam na myśli kilka artykułów lub artykułów) wykorzystania sieci neuronowych jako podstawowego ucznia.
Zasadniczo moje pytanie brzmi: w perceptronach wielowarstwowych perceptrony są używane z funkcją aktywacji sigmoidalnej. Tak więc w regule aktualizacji jest obliczany jakoy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Czym zatem ten „sigmoidalny” Perceptron różni się od regresji logistycznej? Powiedziałbym, że jednowarstwowy sigmoidalny perceptron jest równoważny regresji logistycznej w tym sensie, że obaj używają …
Chciałbym wiedzieć, czy istnieje kod do trenowania splotowej sieci neuronowej do przeprowadzania klasyfikacji szeregów czasowych. Widziałem kilka ostatnich artykułów ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ), ale nie jestem pewien, czy coś istnieje lub czy sam to koduję.
W przypadku modelu liniowego termin skurczu wynosi zawsze .P ( β )y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Jaki jest powód, dla którego nie zmniejszamy terminu odchylenia (przechwytywania) ? Czy powinniśmy zmniejszyć termin obciążenia w modelach sieci neuronowej?β0β0\beta_0
Ograniczenia standardowych algorytmów sieci neuronowej (takich jak backprop) są takie, że musisz podjąć decyzję projektową, ile ukrytych warstw i neuronów na warstwę chcesz. Zwykle szybkość uczenia się i uogólnienie są bardzo wrażliwe na te wybory. Z tego powodu algorytmy sieci neuronowej, takie jak korelacja kaskadowa, wzbudzają zainteresowanie. Zaczyna się od …
Spójrz: możesz dokładnie zobaczyć, gdzie kończą się dane treningowe. Dane treningowe wynoszą od do .1- 1-1-1111 Użyłem Keras i gęstej sieci 1-100-100-2 z aktywacją tanh. Obliczam wynik z dwóch wartości, p i q jako p / q. W ten sposób mogę uzyskać dowolny rozmiar liczby, używając tylko wartości mniejszych niż …
To pytanie ma już odpowiedzi tutaj : Jak zmiana funkcji kosztów może być dodatnia? (1 odpowiedź) Co powinienem zrobić, gdy moja sieć neuronowa się nie uczy? (5 odpowiedzi) Zamknięte w zeszłym miesiącu . Trenuję model (Recurrent Neural Network) do klasyfikowania 4 typów sekwencji. Gdy prowadzę trening, widzę spadek treningu do …
Często wspomina się, że rektyfikowane jednostki liniowe (ReLU) zastąpiły jednostki softplus, ponieważ są liniowe i szybsze w obliczeniach. Czy softplus nadal ma tę zaletę, że indukuje rzadkość, czy też jest ograniczony do ReLU? Pytam o to, dlatego zastanawiam się nad negatywnymi konsekwencjami zerowego nachylenia ReLU. Czy ta właściwość nie „pułapkuje” …
Czytałem artykuł z normalizacji wsadowej (BN) (1) i nie rozumiałem potrzeby używania średnich ruchomych do śledzenia dokładności modelu, a nawet jeśli zaakceptowałem, że było to właściwe, nie rozumiem co dokładnie robią. W moim rozumieniu (co się mylę) w dokumencie wspomniano, że wykorzystuje on statystyki populacji, a nie mini-partię, statystyki po …
Zastosowanie funkcji softmax na wektorze spowoduje „prawdopodobieństwa” i wartości od do . 000111 Ale możemy również podzielić każdą wartość przez sumę wektora, co da prawdopodobieństwa i wartości od do .000111 Przeczytałem tutaj odpowiedź , ale mówi ona, że powodem jest to, że jest różniczkowalna, chociaż obie funkcje są różniczkowalne.
W implementacji ResNet przez Tensorflow widzę , że używają inicjalizatora skalowania wariancji, a także, że inicjator Xavier jest popularny. Nie mam za dużo doświadczenia, co jest lepsze w praktyce?
Mam do czynienia z bayesowskim hierarchicznym modelem liniowym , tutaj sieć go opisująca. YYY oznacza dzienną sprzedaż produktu w supermarkecie (zaobserwowano). XXX jest znaną matrycą regresorów, w tym cen, promocji, dnia tygodnia, pogody i świąt. S.S.S to nieznany ukryty poziom zapasów każdego produktu, który powoduje najwięcej problemów i który uważam …
Uczę sieci neuronowej (szczegóły nieważne), gdzie dane docelowe to wektor kątów (od 0 do 2 * pi). Szukam porady, jak zakodować te dane. Oto, co obecnie próbuję (z ograniczonym sukcesem): 1) Kodowanie 1-of-C: I bin ustawiam możliwe kąty na około 1000 dyskretnych kątów, a następnie wskazuję konkretny kąt, umieszczając 1 …
Mam sieć neuronową skonfigurowaną do przewidywania czegoś, gdzie zmienna wyjściowa jest porządkowa. Opiszę poniżej, używając trzech możliwych wyjść A <B <C. Jest całkiem oczywiste, jak używać sieci neuronowej do generowania danych kategorycznych: dane wyjściowe to tylko softmax ostatniej (zwykle w pełni połączonej) warstwy, jednej na kategorię, a przewidywana kategoria to …
Mam model głębokiej sieci neuronowej i muszę go wyszkolić na moim zestawie danych, który składa się z około 100 000 przykładów, moje dane weryfikacyjne zawierają około 1000 przykładów. Ponieważ trenowanie każdego przykładu zajmuje trochę czasu (około 0,5 s dla każdego przykładu) i aby uniknąć nadmiernego dopasowania, chciałbym zastosować wcześniejsze zatrzymanie, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.