Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Przypuśćmy, że chcę wytrenować głęboką sieć neuronową do przeprowadzania klasyfikacji lub regresji, ale chcę wiedzieć, jak pewne będą prognozy. Jak mogłem to osiągnąć? Moim pomysłem jest obliczenie entropii krzyżowej dla każdego układu odniesienia na podstawie wyników jego prognozowania w miernikach neuronowych powyżej. Następnie trenowałbym drugą sieć neuronową do regresji, która …
Rzecz w tym: Oblicz gradient w odniesieniu do warstwy wejściowej dla sieci neuronowej z jedną ukrytą warstwą, używając sigmoid dla wejścia -> ukryty, softmax dla ukrytego -> wyjścia, z utratą entropii krzyżowej. Mogę przejść przez większość pochodnych za pomocą reguły łańcucha, ale nie jestem pewien, jak właściwie „połączyć” je razem. …
Według „Efficient Backprop” LeCun i wsp. (1998) dobrą praktyką jest znormalizowanie wszystkich danych wejściowych, tak aby były one wyśrodkowane wokół 0 i mieściły się w zakresie maksymalnej drugiej pochodnej. Na przykład użylibyśmy [-0,5,0,5] dla funkcji „Tanh”. Ma to pomóc w postępie wstecznej propagacji, gdy Hesjan staje się bardziej stabilny. Nie …
Sieci autokoderów wydają się znacznie trudniejsze niż normalne sieci MLP klasyfikujące. Po kilku próbach użycia Lasagne wszystko, co otrzymuję w zrekonstruowanym wyjściu, jest w najlepszym razie rozmyte uśrednianie wszystkich obrazów bazy danych MNIST, bez rozróżnienia na to, co faktycznie jest cyfrą wejściową. Wybrana przeze mnie struktura sieci to następujące warstwy …
W CNN poznamy filtry do tworzenia mapy obiektów w warstwie splotowej. W programie Autoencoder pojedynczą ukrytą jednostkę każdej warstwy można uznać za filtr. Jaka jest różnica między filtrami wyuczonymi w tych dwóch sieciach?
Mam bardzo rzadkie dane wejściowe, np. Lokalizacje niektórych funkcji na obrazie wejściowym. Co więcej, każda funkcja może mieć wiele detekcji (nie jestem pewien, czy będzie to miało wpływ na projekt systemu). Będę to przedstawiał jako obraz binarny kanału k z pikselami ON reprezentującymi obecność tej cechy i odwrotnie. Widzimy, że …
Zaczynam od podróży doktorskiej, a ostatecznym celem, jaki sobie wyznaczyłem, jest opracowanie ANN, które monitorowałyby środowisko, w którym pracują, i dynamicznie dostosowywały swoją architekturę do problemu. Oczywistą konsekwencją jest czasowość danych: jeśli zbiór danych nie jest ciągły i nie zmienia się z czasem, po co w ogóle się dostosowywać? Najważniejsze …
Trenuję sztuczną sieć neuronową (propagacja wsteczna, sprzężenie zwrotne) z niestandardowymi danymi rozproszonymi. Oprócz błędu średniej kwadratowej błędu literatura często sugeruje współczynnik korelacji Pearsona do oceny jakości trenowanej sieci. Ale czy współczynnik korelacji Pearsona jest rozsądny, jeśli dane treningowe nie są normalnie dystrybuowane? Czy nie byłoby bardziej rozsądne stosowanie miary korelacji …
Chcę przeprowadzić analizę sentymentu na tekście, przejrzałem kilka artykułów, niektóre z nich używają „Naive Bayes”, a inne to „Recurrent Neural Network (LSTM)” , z drugiej strony widziałem bibliotekę Pythona do analizy sentymentów, która jest nltk. Używa „Naive Bayes”. Czy ktoś może wyjaśnić, jaka jest różnica między używaniem tych dwóch? Przeczytałem …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.