Pytania otagowane jako deep-learning

Obszar uczenia maszynowego związany z uczeniem się hierarchicznych reprezentacji danych, głównie w głębokich sieciach neuronowych.

1
Zapobieganie przeuczeniu LSTM w małym zestawie danych
Modeluję 15000 tweetów do prognozowania nastrojów za pomocą jednowarstwowej LSTM ze 128 ukrytymi jednostkami za pomocą reprezentacji podobnej do word2vec o 80 wymiarach. Dostaję dokładność zniżania (38% losowo = 20%) po 1 epoce. Więcej treningów powoduje, że dokładność walidacji zaczyna spadać, gdy dokładność treningu zaczyna się wspinać - wyraźny znak …

1
Jak wytrenować warstwę LSTM w sieci głębokiej
Używam sieci lstm i feed-forward do klasyfikowania tekstu. Przekształcam tekst w pojedyncze gorące wektory i wprowadzam każdy do lstm, dzięki czemu mogę podsumować jako pojedynczą reprezentację. Następnie przesyłam go do innej sieci. Ale jak mam trenować lstm? Chcę po prostu sklasyfikować tekst - czy powinienem go karmić bez szkolenia? Chcę …

3
Jak dokładnie splotowe sieci neuronowe używają splotu zamiast mnożenia macierzy?
Czytałem książkę Yoshua Bengio o głębokim uczeniu się i na stronie 224 napisano: Sieci splotowe to po prostu sieci neuronowe, które używają splotu zamiast ogólnego mnożenia macierzy w co najmniej jednej z ich warstw. nie byłem jednak w 100% pewien, jak „zastąpić mnożenie macierzy splotem” w matematycznie precyzyjnym sensie. To, …

1
Dlaczego algorytm zniżania „Saddle-Free Newton” nie jest stosowany w praktyce?
Niedawno przeczytałem artykuł Yanna Dauphina i in. Identyfikowanie i atakowanie problemu punktu siodłowego w wielowymiarowej nie wypukłej optymalizacji , w której wprowadzono interesujący algorytm opadania o nazwie Saddle-Free Newton , który wydaje się być dokładnie dostosowany do optymalizacji sieci neuronowej i nie powinien cierpieć z powodu utknięcia w punktach siodłowych …


2
Keras: dlaczego strata maleje, a val_loss rośnie?
Ustawiam wyszukiwanie siatki dla kilku parametrów. Próbuję znaleźć najlepsze parametry dla sieci neuronowej Keras, która dokonuje klasyfikacji binarnej. Dane wyjściowe to 1 lub 0. Istnieje około 200 funkcji. Kiedy przeszukałem siatkę, dostałem kilka modeli i ich parametrów. Najlepszy model miał następujące parametry: Epochs : 20 Batch Size : 10 First …

1
Wybór odpowiedniego rozmiaru mini-partii dla stochastycznego spadku gradientu (SGD)
Czy jest jakaś literatura, która bada wybór wielkości mini-partii podczas stochastycznego spadku gradientu? Z mojego doświadczenia wynika, że ​​jest to wybór empiryczny, zwykle znajdowany w drodze weryfikacji krzyżowej lub przy użyciu różnych reguł. Czy dobrym pomysłem jest powolne zwiększanie rozmiaru minibatchu, gdy zmniejsza się błąd sprawdzania poprawności? Jaki miałby to …



5
Czy istnieje wizualne narzędzie do projektowania i stosowania sieci neuronowych / głębokiego uczenia się? [Zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 10 miesięcy temu . Wiem, że istnieje wiele bibliotek do uczenia maszynowego i dogłębnego uczenia się, takich jak caffe, Theano, TensorFlow, keras, ... Ale wydaje …

1
Matrycowa forma propagacji wstecznej z normalizacją partii
Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego poziomu (polegając na Rcpp(i ewentualnie GPU) na gęstym mnożeniu macierzy), zgrywanie …

3
Architektury neuronowe: automatyczne projektowanie oparte na danych
Ostatnie postępy w sieciach neuronowych podsumowuje szereg nowatorskich architektur charakteryzujących się głównie rosnącą złożonością projektową. Od LeNet5 (1994) do AlexNet (2012), do Overfeat (2013) i GoogleLeNet / Inception (2014) i tak dalej ... Czy jest jakaś próba umożliwienia maszynie podjęcia decyzji / zaprojektowania architektury, która ma być użyta w zależności …

4
Jak (systematycznie) dostrajać tempo uczenia się przy spadku gradientu jako optymalizatorze?
Osoba z zewnątrz w polu ML / DL; rozpoczął kurs głębokiego uczenia Udacity oparty na Tensorflow; wykonanie zadania 4 zadanie 4; próba dostrojenia szybkości uczenia się za pomocą następującej konfiguracji: Wielkość partii 128 Liczba kroków: wystarczy, aby wypełnić 2 epoki Rozmiary ukrytych warstw: 1024, 305, 75 Inicjalizacja wagi: normalnie obcięta …

2
Przechwytywanie początkowych wzorców podczas korzystania ze skróconej propagacji wstecznej w czasie (RNN / LSTM)
Powiedz, że używam RNN / LSTM do analizy sentymentu, co jest podejściem typu jeden do jednego (patrz ten blog ). Sieć jest trenowana przez skróconą propagację wsteczną w czasie (BPTT), w której sieć jest rozwijana tylko przez 30 ostatnich kroków, jak zwykle. W moim przypadku każda z moich sekcji tekstowych, …

2
Dlaczego funkcja utraty 0-1 jest trudna do rozwiązania?
W książce Ian Goodfellow's Deep Learning napisano o tym Czasami funkcja utraty, o którą tak naprawdę dbamy (powiedzmy, błąd klasyfikacji), nie jest funkcją, którą można skutecznie zoptymalizować. Na przykład dokładne minimalizowanie oczekiwanej straty 0-1 jest zazwyczaj trudne (wykładnicze w wymiarze wejściowym), nawet w przypadku klasyfikatora liniowego. W takich sytuacjach zwykle …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.