Al Rahimi wygłosił ostatnio bardzo prowokujący wykład w NIPS 2017, porównując obecne uczenie maszynowe z alchemią. Jednym z jego twierdzeń jest to, że musimy wrócić do rozwoju teoretycznego, aby mieć proste twierdzenia potwierdzające fundamentalne wyniki. Kiedy to powiedział, zacząłem szukać głównych twierdzeń dotyczących ML, ale nie mogłem znaleźć dobrego odniesienia, …
Próbuję zrozumieć część splotową sieci neuronowych splotowych. Patrząc na następujący rysunek: Nie mam problemów ze zrozumieniem pierwszej warstwy splotu, w której mamy 4 różne jądra (o wielkości ), które splatamy z obrazem wejściowym, aby uzyskać 4 mapy cech.k × kk×kk \times k To, czego nie rozumiem, to kolejna warstwa splotu, …
Chcę nauczyć się sieci neuronowych. Jestem lingwistą komputerowym. Znam statystyczne metody uczenia maszynowego i potrafię kodować w Pythonie. Chciałbym zacząć od jego koncepcji i znam jeden lub dwa popularne modele, które mogą być przydatne z perspektywy językoznawstwa komputerowego. Przeglądałem sieć w celach informacyjnych i znalazłem kilka książek i materiałów. Ripley, …
Odkryłem, że Imagenet i inne duże CNN korzystają z lokalnych warstw normalizacji odpowiedzi. Nie mogę jednak znaleźć tylu informacji na ich temat. Jak ważne są i kiedy należy je stosować? From http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : „Lokalna warstwa normalizacyjna odpowiedzi dokonuje pewnego rodzaju„ bocznego hamowania ”poprzez normalizację w lokalnych regionach wejściowych. W trybie …
Znalazłem rektyfikowaną jednostkę liniową (ReLU) chwaloną w kilku miejscach jako rozwiązanie problemu znikającego gradientu sieci neuronowych. Oznacza to, że jako funkcję aktywacji używa się max (0, x). Gdy aktywacja jest dodatnia, oczywiste jest, że jest ona lepsza niż, powiedzmy, funkcja aktywacji sigmoidalnej, ponieważ jej pochodna wynosi zawsze 1 zamiast arbitralnie …
Szukam artykułu, który mógłby pomóc w wytyczeniu sposobu wyboru hiperparametrów głębokiej architektury, takich jak piętrowe auto-kodery lub sieci głęboko wierzące. Istnieje wiele hiperparametrów i jestem bardzo zdezorientowany, jak je wybrać. Również stosowanie weryfikacji krzyżowej nie jest opcją, ponieważ szkolenie naprawdę zajmuje dużo czasu!
Problem, który często pojawiałem się w kontekście sieci neuronowych, w szczególności sieci neuronowych, polega na tym, że są „głodne danych” - to znaczy, że nie działają one dobrze, chyba że mamy duży zestaw danych z którymi trenować sieć. Rozumiem, że wynika to z faktu, że sieci sieciowe, zwłaszcza sieci głębokie, …
Trenuję sieć neuronową, a utrata treningu maleje, ale utrata walidacji nie maleje lub zmniejsza się znacznie mniej niż oczekiwałbym, na podstawie referencji lub eksperymentów z bardzo podobnymi architekturami i danymi. Jak mogę to naprawić? Co do pytania Co powinienem zrobić, gdy moja sieć neuronowa się nie uczy? do którego zainspirowano …
Tworzę splotową sieć neuronową (CNN), w której mam warstwę splotową, a następnie warstwę puli i chcę zastosować rezygnację, aby zmniejszyć nadmierne dopasowanie. Mam wrażenie, że warstwa porzucająca powinna zostać nałożona po warstwie pulowania, ale tak naprawdę nie mam nic na poparcie tego. Gdzie jest właściwe miejsce na dodanie warstwy rezygnacji? …
Kodowanie rzadkie definiuje się jako uczenie się kompletnego zestawu wektorów podstawowych do reprezentowania wektorów wejściowych (<- dlaczego tego chcemy). Jakie są różnice między rzadkim kodowaniem a autoencoderem? Kiedy zastosujemy rzadkie kodowanie i autoencoder?
Czy ktoś widział jakąkolwiek literaturę na temat szkolenia wstępnego w głęboko splotowej sieci neuronowej? Widziałem tylko bez nadzoru trening wstępny w automatyce lub ograniczonych maszynach Boltzmana.
Komputery od dawna potrafią grać w szachy za pomocą techniki „brute-force”, szukając określonej głębokości, a następnie oceniając pozycję. Komputer AlphaGo używa jednak tylko ANN do oceny pozycji (o ile mi wiadomo, nie dokonuje głębokiego przeszukiwania). Czy można stworzyć silnik szachowy, który gra w szachy w taki sam sposób, jak AlphaGo …
Wprowadzenie do tła W splotowej sieci neuronowej zwykle mamy ogólną strukturę / przepływ, który wygląda następująco: obraz wejściowy (tj. wektor 2D x) (Pierwsza warstwa konwergencji (konw. 1) zaczyna się tutaj ...) zwinąć zestaw filtrów ( w1) wzdłuż obrazu 2D (tzn. wykonać iloczyny z1 = w1*x + b1iloczynu iloczynu), gdzie z1jest …
Hinton i Salakhutdinov w zmniejszaniu wymiarów danych za pomocą sieci neuronowych Science 2006 zaproponowali nieliniowe PCA poprzez zastosowanie głębokiego autoencodera. Kilka razy próbowałem zbudować i wyszkolić autoencoder PCA z Tensorflow, ale nigdy nie byłem w stanie uzyskać lepszego wyniku niż liniowy PCA. Jak mogę skutecznie trenować autoencoder? (Późniejsza edycja przez …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.