Statystyki i duże zbiory danych deep-learning

1

Zapobieganie przeuczeniu LSTM w małym zestawie danych

Modeluję 15000 tweetów do prognozowania nastrojów za pomocą jednowarstwowej LSTM ze 128 ukrytymi jednostkami za pomocą reprezentacji podobnej do word2vec o 80 wymiarach. Dostaję dokładność zniżania (38% losowo = 20%) po 1 epoce. Więcej treningów powoduje, że dokładność walidacji zaczyna spadać, gdy dokładność treningu zaczyna się wspinać - wyraźny znak …

13 deep-learning regularization overfitting lstm

1

Jak wytrenować warstwę LSTM w sieci głębokiej

Używam sieci lstm i feed-forward do klasyfikowania tekstu. Przekształcam tekst w pojedyncze gorące wektory i wprowadzam każdy do lstm, dzięki czemu mogę podsumować jako pojedynczą reprezentację. Następnie przesyłam go do innej sieci. Ale jak mam trenować lstm? Chcę po prostu sklasyfikować tekst - czy powinienem go karmić bez szkolenia? Chcę …

13 classification neural-networks deep-learning lstm

3

Jak dokładnie splotowe sieci neuronowe używają splotu zamiast mnożenia macierzy?

Czytałem książkę Yoshua Bengio o głębokim uczeniu się i na stronie 224 napisano: Sieci splotowe to po prostu sieci neuronowe, które używają splotu zamiast ogólnego mnożenia macierzy w co najmniej jednej z ich warstw. nie byłem jednak w 100% pewien, jak „zastąpić mnożenie macierzy splotem” w matematycznie precyzyjnym sensie. To, …

13 machine-learning neural-networks deep-learning convolution

1

Dlaczego algorytm zniżania „Saddle-Free Newton” nie jest stosowany w praktyce?

Niedawno przeczytałem artykuł Yanna Dauphina i in. Identyfikowanie i atakowanie problemu punktu siodłowego w wielowymiarowej nie wypukłej optymalizacji , w której wprowadzono interesujący algorytm opadania o nazwie Saddle-Free Newton , który wydaje się być dokładnie dostosowany do optymalizacji sieci neuronowej i nie powinien cierpieć z powodu utknięcia w punktach siodłowych …

13 optimization deep-learning gradient-descent

2

Czy głębokie uczenie się jest przydatne do optymalizacji kombinatorycznej?

Czy istnieją grupy badawcze pracujące nad wykorzystaniem głębokiego uczenia się w kombinatorycznych problemach optymalizacyjnych?

13 optimization deep-learning

2

Keras: dlaczego strata maleje, a val_loss rośnie?

Ustawiam wyszukiwanie siatki dla kilku parametrów. Próbuję znaleźć najlepsze parametry dla sieci neuronowej Keras, która dokonuje klasyfikacji binarnej. Dane wyjściowe to 1 lub 0. Istnieje około 200 funkcji. Kiedy przeszukałem siatkę, dostałem kilka modeli i ich parametrów. Najlepszy model miał następujące parametry: Epochs : 20 Batch Size : 10 First …

13 machine-learning cross-validation deep-learning tensorflow theano

1

Wybór odpowiedniego rozmiaru mini-partii dla stochastycznego spadku gradientu (SGD)

Czy jest jakaś literatura, która bada wybór wielkości mini-partii podczas stochastycznego spadku gradientu? Z mojego doświadczenia wynika, że jest to wybór empiryczny, zwykle znajdowany w drodze weryfikacji krzyżowej lub przy użyciu różnych reguł. Czy dobrym pomysłem jest powolne zwiększanie rozmiaru minibatchu, gdy zmniejsza się błąd sprawdzania poprawności? Jaki miałby to …

13 machine-learning gradient-descent hyperparameter deep-learning

2

Model Google Inception: dlaczego istnieje wiele softmax?

Topologia modelu Google Inception można znaleźć tutaj: Google Inception Netowrk Zauważyłem, że w tym modelu znajdują się 3 warstwy softmax (# 154, # 152, # 145), a 2 z nich to pewnego rodzaju wczesna ucieczka tego modelu. Z tego, co wiem, warstwa softmax służy do ostatecznego wyjścia, więc dlaczego jest …

13 deep-learning conv-neural-network

3

Czy sieć neuronowa (np. Splotowa sieć neuronowa) może mieć ujemne wagi?

Czy możliwe jest uzyskanie ujemnych wag (po wystarczającej liczbie epok) dla głębokich splotowych sieci neuronowych, gdy używamy ReLU dla wszystkich warstw aktywacyjnych?

13 machine-learning neural-networks deep-learning conv-neural-network

5

Czy istnieje wizualne narzędzie do projektowania i stosowania sieci neuronowych / głębokiego uczenia się? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 10 miesięcy temu . Wiem, że istnieje wiele bibliotek do uczenia maszynowego i dogłębnego uczenia się, takich jak caffe, Theano, TensorFlow, keras, ... Ale wydaje …

13 neural-networks deep-learning conv-neural-network

1

Matrycowa forma propagacji wstecznej z normalizacją partii

Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego poziomu (polegając na Rcpp(i ewentualnie GPU) na gęstym mnożeniu macierzy), zgrywanie …

12 machine-learning neural-networks deep-learning backpropagation batch-normalization

3

Architektury neuronowe: automatyczne projektowanie oparte na danych

Ostatnie postępy w sieciach neuronowych podsumowuje szereg nowatorskich architektur charakteryzujących się głównie rosnącą złożonością projektową. Od LeNet5 (1994) do AlexNet (2012), do Overfeat (2013) i GoogleLeNet / Inception (2014) i tak dalej ... Czy jest jakaś próba umożliwienia maszynie podjęcia decyzji / zaprojektowania architektury, która ma być użyta w zależności …

12 neural-networks deep-learning

4

Jak (systematycznie) dostrajać tempo uczenia się przy spadku gradientu jako optymalizatorze?

Osoba z zewnątrz w polu ML / DL; rozpoczął kurs głębokiego uczenia Udacity oparty na Tensorflow; wykonanie zadania 4 zadanie 4; próba dostrojenia szybkości uczenia się za pomocą następującej konfiguracji: Wielkość partii 128 Liczba kroków: wystarczy, aby wypełnić 2 epoki Rozmiary ukrytych warstw: 1024, 305, 75 Inicjalizacja wagi: normalnie obcięta …

12 python machine-learning tensorflow deep-learning

2

Przechwytywanie początkowych wzorców podczas korzystania ze skróconej propagacji wstecznej w czasie (RNN / LSTM)

Powiedz, że używam RNN / LSTM do analizy sentymentu, co jest podejściem typu jeden do jednego (patrz ten blog ). Sieć jest trenowana przez skróconą propagację wsteczną w czasie (BPTT), w której sieć jest rozwijana tylko przez 30 ostatnich kroków, jak zwykle. W moim przypadku każda z moich sekcji tekstowych, …

12 neural-networks deep-learning natural-language backpropagation

2

Dlaczego funkcja utraty 0-1 jest trudna do rozwiązania?

W książce Ian Goodfellow's Deep Learning napisano o tym Czasami funkcja utraty, o którą tak naprawdę dbamy (powiedzmy, błąd klasyfikacji), nie jest funkcją, którą można skutecznie zoptymalizować. Na przykład dokładne minimalizowanie oczekiwanej straty 0-1 jest zazwyczaj trudne (wykładnicze w wymiarze wejściowym), nawet w przypadku klasyfikatora liniowego. W takich sytuacjach zwykle …

12 neural-networks deep-learning loss-functions

Pytania otagowane jako deep-learning