Statystyki i duże zbiory danych deep-learning

6

Jakie są główne twierdzenia w uczeniu maszynowym (głębokim)?

Al Rahimi wygłosił ostatnio bardzo prowokujący wykład w NIPS 2017, porównując obecne uczenie maszynowe z alchemią. Jednym z jego twierdzeń jest to, że musimy wrócić do rozwoju teoretycznego, aby mieć proste twierdzenia potwierdzające fundamentalne wyniki. Kiedy to powiedział, zacząłem szukać głównych twierdzeń dotyczących ML, ale nie mogłem znaleźć dobrego odniesienia, …

45 machine-learning deep-learning theory

4

W jaki sposób jądra są stosowane do map obiektów w celu tworzenia innych map obiektów?

Próbuję zrozumieć część splotową sieci neuronowych splotowych. Patrząc na następujący rysunek: Nie mam problemów ze zrozumieniem pierwszej warstwy splotu, w której mamy 4 różne jądra (o wielkości ), które splatamy z obrazem wejściowym, aby uzyskać 4 mapy cech.k × kk×kk \times k To, czego nie rozumiem, to kolejna warstwa splotu, …

44 machine-learning neural-networks deep-learning conv-neural-network

7

Referencje sieci neuronowej (podręczniki, kursy online) dla początkujących

Chcę nauczyć się sieci neuronowych. Jestem lingwistą komputerowym. Znam statystyczne metody uczenia maszynowego i potrafię kodować w Pythonie. Chciałbym zacząć od jego koncepcji i znam jeden lub dwa popularne modele, które mogą być przydatne z perspektywy językoznawstwa komputerowego. Przeglądałem sieć w celach informacyjnych i znalazłem kilka książek i materiałów. Ripley, …

43 neural-networks deep-learning references natural-language computer-vision

6

Znaczenie lokalnej normalizacji odpowiedzi w CNN

Odkryłem, że Imagenet i inne duże CNN korzystają z lokalnych warstw normalizacji odpowiedzi. Nie mogę jednak znaleźć tylu informacji na ich temat. Jak ważne są i kiedy należy je stosować? From http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : „Lokalna warstwa normalizacyjna odpowiedzi dokonuje pewnego rodzaju„ bocznego hamowania ”poprzez normalizację w lokalnych regionach wejściowych. W trybie …

41 deep-learning convolution conv-neural-network

4

W jaki sposób funkcja aktywacji prostoliniowej rozwiązuje problem znikającego gradientu w sieciach neuronowych?

Znalazłem rektyfikowaną jednostkę liniową (ReLU) chwaloną w kilku miejscach jako rozwiązanie problemu znikającego gradientu sieci neuronowych. Oznacza to, że jako funkcję aktywacji używa się max (0, x). Gdy aktywacja jest dodatnia, oczywiste jest, że jest ona lepsza niż, powiedzmy, funkcja aktywacji sigmoidalnej, ponieważ jej pochodna wynosi zawsze 1 zamiast arbitralnie …

40 machine-learning neural-networks deep-learning gradient-descent

3

Wytyczna wyboru hiperparametrów w głębokim uczeniu się

Szukam artykułu, który mógłby pomóc w wytyczeniu sposobu wyboru hiperparametrów głębokiej architektury, takich jak piętrowe auto-kodery lub sieci głęboko wierzące. Istnieje wiele hiperparametrów i jestem bardzo zdezorientowany, jak je wybrać. Również stosowanie weryfikacji krzyżowej nie jest opcją, ponieważ szkolenie naprawdę zajmuje dużo czasu!

38 machine-learning deep-learning deep-belief-networks hyperparameter

7

Dlaczego regularyzacja nie rozwiązuje problemu głodu w sieciach neuronowych?

Problem, który często pojawiałem się w kontekście sieci neuronowych, w szczególności sieci neuronowych, polega na tym, że są „głodne danych” - to znaczy, że nie działają one dobrze, chyba że mamy duży zestaw danych z którymi trenować sieć. Rozumiem, że wynika to z faktu, że sieci sieciowe, zwłaszcza sieci głębokie, …

37 neural-networks deep-learning regularization

4

Co powinienem zrobić, gdy moja sieć neuronowa nie uogólnia się dobrze?

Trenuję sieć neuronową, a utrata treningu maleje, ale utrata walidacji nie maleje lub zmniejsza się znacznie mniej niż oczekiwałbym, na podstawie referencji lub eksperymentów z bardzo podobnymi architekturami i danymi. Jak mogę to naprawić? Co do pytania Co powinienem zrobić, gdy moja sieć neuronowa się nie uczy? do którego zainspirowano …

37 neural-networks deep-learning

4

Różnica między „jądrem” a „filtrem” w CNN

Jaka jest różnica między terminami „jądro” i „filtr” w kontekście splotowych sieci neuronowych?

37 neural-networks terminology deep-learning conv-neural-network

3

Czy warstwy puli są dodawane przed czy po warstwach usuwanych?

Tworzę splotową sieć neuronową (CNN), w której mam warstwę splotową, a następnie warstwę puli i chcę zastosować rezygnację, aby zmniejszyć nadmierne dopasowanie. Mam wrażenie, że warstwa porzucająca powinna zostać nałożona po warstwie pulowania, ale tak naprawdę nie mam nic na poparcie tego. Gdzie jest właściwe miejsce na dodanie warstwy rezygnacji? …

35 deep-learning conv-neural-network dropout

4

Jakie są różnice między rzadkim kodowaniem a autoencoderem?

Kodowanie rzadkie definiuje się jako uczenie się kompletnego zestawu wektorów podstawowych do reprezentowania wektorów wejściowych (<- dlaczego tego chcemy). Jakie są różnice między rzadkim kodowaniem a autoencoderem? Kiedy zastosujemy rzadkie kodowanie i autoencoder?

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

3

Wstępne szkolenie w głębokiej sieci neuronowej splotowej?

Czy ktoś widział jakąkolwiek literaturę na temat szkolenia wstępnego w głęboko splotowej sieci neuronowej? Widziałem tylko bez nadzoru trening wstępny w automatyce lub ograniczonych maszynach Boltzmana.

33 machine-learning neural-networks deep-learning conv-neural-network autoencoders

2

Dlaczego nie ma mechanizmów uczenia się głębokiego wzmocnienia dla szachów, podobnych do AlphaGo?

Komputery od dawna potrafią grać w szachy za pomocą techniki „brute-force”, szukając określonej głębokości, a następnie oceniając pozycję. Komputer AlphaGo używa jednak tylko ANN do oceny pozycji (o ile mi wiadomo, nie dokonuje głębokiego przeszukiwania). Czy można stworzyć silnik szachowy, który gra w szachy w taki sam sposób, jak AlphaGo …

32 neural-networks deep-learning reinforcement-learning games

2

Jaka jest definicja „mapy obiektów” (inaczej „mapy aktywacji”) w splotowej sieci neuronowej?

Wprowadzenie do tła W splotowej sieci neuronowej zwykle mamy ogólną strukturę / przepływ, który wygląda następująco: obraz wejściowy (tj. wektor 2D x) (Pierwsza warstwa konwergencji (konw. 1) zaczyna się tutaj ...) zwinąć zestaw filtrów ( w1) wzdłuż obrazu 2D (tzn. wykonać iloczyny z1 = w1*x + b1iloczynu iloczynu), gdzie z1jest …

32 neural-networks deep-learning conv-neural-network

3

Budowanie autokodera w Tensorflow, aby przewyższyć PCA

Hinton i Salakhutdinov w zmniejszaniu wymiarów danych za pomocą sieci neuronowych Science 2006 zaproponowali nieliniowe PCA poprzez zastosowanie głębokiego autoencodera. Kilka razy próbowałem zbudować i wyszkolić autoencoder PCA z Tensorflow, ale nigdy nie byłem w stanie uzyskać lepszego wyniku niż liniowy PCA. Jak mogę skutecznie trenować autoencoder? (Późniejsza edycja przez …

31 pca python deep-learning tensorflow autoencoders

Pytania otagowane jako deep-learning