Pytania otagowane jako deep-learning

Obszar uczenia maszynowego związany z uczeniem się hierarchicznych reprezentacji danych, głównie w głębokich sieciach neuronowych.

3
Motywowanie esicy jednostki wyjściowe w sieciach neuronowych zaczynające nieznormalizowanych prawdopodobieństw dziennika liniowy i
Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione.P(y=1|x)P(y=1|x)P(y=1|x) Podsumowując, niektóre materiały pozwalają, by był neuronem wyjściowym przed zastosowaniem aktywacji, gdzie jest wyjściem poprzedniej ukrytej warstwy, …


1
Czym dokładnie jest blok Residual Learning w kontekście Deep Residual Networks w Deep Learning?
Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2: co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( …

2
Użyj współczynnika korelacji Pearsona jako celu optymalizacji w uczeniu maszynowym
W uczeniu maszynowym (w przypadku problemów z regresją) często widzę błąd średniej kwadratowej (MSE) lub średni błąd bezwzględny (MAE) jako funkcję błędu w celu zminimalizowania (plus termin regularyzacji). Zastanawiam się, czy istnieją sytuacje, w których zastosowanie współczynnika korelacji byłoby bardziej odpowiednie? jeżeli taka sytuacja istnieje, to: W jakich sytuacjach współczynnik …

3
Kodowanie daty / godziny (dane cykliczne) dla sieci neuronowych
Jak zakodować datę i godzinę zdarzenia dla sieci neuronowej? Nie mam ciągłych szeregów czasowych, ale niektóre wydarzenia z datą i godziną, i analizuję pewne zainteresowania. Zainteresowanie to różni się między porankami i wieczorami i różni się między dniami powszednimi oraz między latem a zimą, a także przed Bożym Narodzeniem i …

3
Modelowanie matematyczne sieci neuronowych jako modeli graficznych
Usiłuję stworzyć matematyczne połączenie między siecią neuronową a modelem graficznym. W modelach graficznych pomysł jest prosty: rozkład prawdopodobieństwa jest rozkładany na czynniki według klików na wykresie, przy czym potencjały zwykle należą do rodziny wykładniczej. Czy istnieje równoważne uzasadnienie dla sieci neuronowej? Czy można wyrazić rozkład prawdopodobieństwa dla jednostek (zmiennych) w …

2
Wybrałeś rozmiar filtra, kroki itp. W CNN?
Patrzyłem na wykłady CS231N z Stanford i staram się ominąć niektóre problemy w architekturach CNN. Próbuję zrozumieć, czy istnieją jakieś ogólne wytyczne dotyczące wybierania rozmiaru filtra splotowego i rzeczy takich jak postępy, czy też jest to bardziej sztuka niż nauka? Rozumiem, że gromadzenie danych istnieje głównie w celu wywołania pewnej …



3
Nieliniowość przed końcową warstwą Softmax w splotowej sieci neuronowej
Studiuję i próbuję wdrożyć splotowe sieci neuronowe, ale przypuszczam, że to pytanie dotyczy ogólnie wielowarstwowych perceptronów. Neurony wyjściowe w mojej sieci reprezentują aktywację każdej klasy: najbardziej aktywny neuron odpowiada przewidywanej klasie dla danego wejścia. Aby rozważyć koszt entropii krzyżowej dla szkolenia, dodaję warstwę softmax na końcu sieci, aby wartość aktywacji …




1
Przybliżenie drugiego rzędu funkcji utraty (książka do głębokiego uczenia się, 7.33)
W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247). Kwadratowe przybliżenie funkcji kosztu jjj daje: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

4
Wnioskowanie wolne od prawdopodobieństwa - co to znaczy?
Niedawno uświadomiłem sobie, że w literaturze omawiane są metody „pozbawione prawdopodobieństwa”. Nie jestem jednak pewien, co to znaczy, że metoda wnioskowania lub optymalizacji jest wolna od prawdopodobieństwa . W uczeniu maszynowym celem jest zazwyczaj maksymalizacja prawdopodobieństwa, że ​​niektóre parametry dopasują się do funkcji, np. Wagi w sieci neuronowej. Więc jaka …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.