Modeluję 15000 tweetów do prognozowania nastrojów za pomocą jednowarstwowej LSTM ze 128 ukrytymi jednostkami za pomocą reprezentacji podobnej do word2vec o 80 wymiarach. Dostaję dokładność zniżania (38% losowo = 20%) po 1 epoce. Więcej treningów powoduje, że dokładność walidacji zaczyna spadać, gdy dokładność treningu zaczyna się wspinać - wyraźny znak …
Używam sieci lstm i feed-forward do klasyfikowania tekstu. Przekształcam tekst w pojedyncze gorące wektory i wprowadzam każdy do lstm, dzięki czemu mogę podsumować jako pojedynczą reprezentację. Następnie przesyłam go do innej sieci. Ale jak mam trenować lstm? Chcę po prostu sklasyfikować tekst - czy powinienem go karmić bez szkolenia? Chcę …
Czytałem książkę Yoshua Bengio o głębokim uczeniu się i na stronie 224 napisano: Sieci splotowe to po prostu sieci neuronowe, które używają splotu zamiast ogólnego mnożenia macierzy w co najmniej jednej z ich warstw. nie byłem jednak w 100% pewien, jak „zastąpić mnożenie macierzy splotem” w matematycznie precyzyjnym sensie. To, …
Niedawno przeczytałem artykuł Yanna Dauphina i in. Identyfikowanie i atakowanie problemu punktu siodłowego w wielowymiarowej nie wypukłej optymalizacji , w której wprowadzono interesujący algorytm opadania o nazwie Saddle-Free Newton , który wydaje się być dokładnie dostosowany do optymalizacji sieci neuronowej i nie powinien cierpieć z powodu utknięcia w punktach siodłowych …
Ustawiam wyszukiwanie siatki dla kilku parametrów. Próbuję znaleźć najlepsze parametry dla sieci neuronowej Keras, która dokonuje klasyfikacji binarnej. Dane wyjściowe to 1 lub 0. Istnieje około 200 funkcji. Kiedy przeszukałem siatkę, dostałem kilka modeli i ich parametrów. Najlepszy model miał następujące parametry: Epochs : 20 Batch Size : 10 First …
Czy jest jakaś literatura, która bada wybór wielkości mini-partii podczas stochastycznego spadku gradientu? Z mojego doświadczenia wynika, że jest to wybór empiryczny, zwykle znajdowany w drodze weryfikacji krzyżowej lub przy użyciu różnych reguł. Czy dobrym pomysłem jest powolne zwiększanie rozmiaru minibatchu, gdy zmniejsza się błąd sprawdzania poprawności? Jaki miałby to …
Topologia modelu Google Inception można znaleźć tutaj: Google Inception Netowrk Zauważyłem, że w tym modelu znajdują się 3 warstwy softmax (# 154, # 152, # 145), a 2 z nich to pewnego rodzaju wczesna ucieczka tego modelu. Z tego, co wiem, warstwa softmax służy do ostatecznego wyjścia, więc dlaczego jest …
Czy możliwe jest uzyskanie ujemnych wag (po wystarczającej liczbie epok) dla głębokich splotowych sieci neuronowych, gdy używamy ReLU dla wszystkich warstw aktywacyjnych?
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 10 miesięcy temu . Wiem, że istnieje wiele bibliotek do uczenia maszynowego i dogłębnego uczenia się, takich jak caffe, Theano, TensorFlow, keras, ... Ale wydaje …
Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego poziomu (polegając na Rcpp(i ewentualnie GPU) na gęstym mnożeniu macierzy), zgrywanie …
Ostatnie postępy w sieciach neuronowych podsumowuje szereg nowatorskich architektur charakteryzujących się głównie rosnącą złożonością projektową. Od LeNet5 (1994) do AlexNet (2012), do Overfeat (2013) i GoogleLeNet / Inception (2014) i tak dalej ... Czy jest jakaś próba umożliwienia maszynie podjęcia decyzji / zaprojektowania architektury, która ma być użyta w zależności …
Osoba z zewnątrz w polu ML / DL; rozpoczął kurs głębokiego uczenia Udacity oparty na Tensorflow; wykonanie zadania 4 zadanie 4; próba dostrojenia szybkości uczenia się za pomocą następującej konfiguracji: Wielkość partii 128 Liczba kroków: wystarczy, aby wypełnić 2 epoki Rozmiary ukrytych warstw: 1024, 305, 75 Inicjalizacja wagi: normalnie obcięta …
Powiedz, że używam RNN / LSTM do analizy sentymentu, co jest podejściem typu jeden do jednego (patrz ten blog ). Sieć jest trenowana przez skróconą propagację wsteczną w czasie (BPTT), w której sieć jest rozwijana tylko przez 30 ostatnich kroków, jak zwykle. W moim przypadku każda z moich sekcji tekstowych, …
W książce Ian Goodfellow's Deep Learning napisano o tym Czasami funkcja utraty, o którą tak naprawdę dbamy (powiedzmy, błąd klasyfikacji), nie jest funkcją, którą można skutecznie zoptymalizować. Na przykład dokładne minimalizowanie oczekiwanej straty 0-1 jest zazwyczaj trudne (wykładnicze w wymiarze wejściowym), nawet w przypadku klasyfikatora liniowego. W takich sytuacjach zwykle …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.