Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione.P(y=1|x)P(y=1|x)P(y=1|x) Podsumowując, niektóre materiały pozwalają, by był neuronem wyjściowym przed zastosowaniem aktywacji, gdzie jest wyjściem poprzedniej ukrytej warstwy, …
Chcę poznać różnicę między regresją liniową w regularnej analizie uczenia maszynowego a regresją liniową w ustawieniu „głębokiego uczenia”. Jakie algorytmy są stosowane do regresji liniowej w ustawieniach głębokiego uczenia się.
Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2: co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( …
W uczeniu maszynowym (w przypadku problemów z regresją) często widzę błąd średniej kwadratowej (MSE) lub średni błąd bezwzględny (MAE) jako funkcję błędu w celu zminimalizowania (plus termin regularyzacji). Zastanawiam się, czy istnieją sytuacje, w których zastosowanie współczynnika korelacji byłoby bardziej odpowiednie? jeżeli taka sytuacja istnieje, to: W jakich sytuacjach współczynnik …
Jak zakodować datę i godzinę zdarzenia dla sieci neuronowej? Nie mam ciągłych szeregów czasowych, ale niektóre wydarzenia z datą i godziną, i analizuję pewne zainteresowania. Zainteresowanie to różni się między porankami i wieczorami i różni się między dniami powszednimi oraz między latem a zimą, a także przed Bożym Narodzeniem i …
Usiłuję stworzyć matematyczne połączenie między siecią neuronową a modelem graficznym. W modelach graficznych pomysł jest prosty: rozkład prawdopodobieństwa jest rozkładany na czynniki według klików na wykresie, przy czym potencjały zwykle należą do rodziny wykładniczej. Czy istnieje równoważne uzasadnienie dla sieci neuronowej? Czy można wyrazić rozkład prawdopodobieństwa dla jednostek (zmiennych) w …
Patrzyłem na wykłady CS231N z Stanford i staram się ominąć niektóre problemy w architekturach CNN. Próbuję zrozumieć, czy istnieją jakieś ogólne wytyczne dotyczące wybierania rozmiaru filtra splotowego i rzeczy takich jak postępy, czy też jest to bardziej sztuka niż nauka? Rozumiem, że gromadzenie danych istnieje głównie w celu wywołania pewnej …
I rozumie, że dany zestaw niezależnych obserwacji największej wiarygodności Estymator (lub równoważnie MAP o płaskich / jednolity wcześniej), który identyfikuje Parametry \ mathbf {θ} , które wytwarzają model dystrybucji p_ {wzór} \ left (\, \ cdot \,; \ mathbf {θ} \ right) najlepiej pasujące do tych obserwacjimmmO ={ o( 1 …
Interesuje mnie (Deep) Reinforcement Learning (RL) . Czy przed nurkowaniem w tym polu powinienem wziąć udział w kursie z teorii gier (GT) ? W jaki sposób powiązane są GT i RL ?
Studiuję i próbuję wdrożyć splotowe sieci neuronowe, ale przypuszczam, że to pytanie dotyczy ogólnie wielowarstwowych perceptronów. Neurony wyjściowe w mojej sieci reprezentują aktywację każdej klasy: najbardziej aktywny neuron odpowiada przewidywanej klasie dla danego wejścia. Aby rozważyć koszt entropii krzyżowej dla szkolenia, dodaję warstwę softmax na końcu sieci, aby wartość aktywacji …
Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i dlaczego?
O ile mi wiadomo, zarówno autoencodery, jak i t-SNE są używane do nieliniowej redukcji wymiarowości. Jakie są między nimi różnice i dlaczego powinienem używać jednego kontra drugiego?
Chcę użyć głębokiego uczenia się, aby trenować wykrywanie binarne twarzy / twarzy, jakiej straty powinienem użyć, myślę, że to SigmoidCrossEntropyLoss lub utrata zawiasów . Zgadza się, ale zastanawiam się też, czy powinienem używać softmax, ale tylko z dwiema klasami?
W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247). Kwadratowe przybliżenie funkcji kosztu jjj daje: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2
Niedawno uświadomiłem sobie, że w literaturze omawiane są metody „pozbawione prawdopodobieństwa”. Nie jestem jednak pewien, co to znaczy, że metoda wnioskowania lub optymalizacji jest wolna od prawdopodobieństwa . W uczeniu maszynowym celem jest zazwyczaj maksymalizacja prawdopodobieństwa, że niektóre parametry dopasują się do funkcji, np. Wagi w sieci neuronowej. Więc jaka …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.