Statystyki i duże zbiory danych deep-learning

3

Motywowanie esicy jednostki wyjściowe w sieciach neuronowych zaczynające nieznormalizowanych prawdopodobieństw dziennika liniowy i

Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione.P(y=1|x)P(y=1|x)P(y=1|x) Podsumowując, niektóre materiały pozwalają, by był neuronem wyjściowym przed zastosowaniem aktywacji, gdzie jest wyjściem poprzedniej ukrytej warstwy, …

12 neural-networks deep-learning

2

Jaka jest różnica między „regularną” regresją liniową a głęboką regresją liniową?

Chcę poznać różnicę między regresją liniową w regularnej analizie uczenia maszynowego a regresją liniową w ustawieniu „głębokiego uczenia”. Jakie algorytmy są stosowane do regresji liniowej w ustawieniach głębokiego uczenia się.

12 regression machine-learning deep-learning

1

Czym dokładnie jest blok Residual Learning w kontekście Deep Residual Networks w Deep Learning?

Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2: co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( …

12 machine-learning neural-networks deep-learning conv-neural-network residual-networks

2

Użyj współczynnika korelacji Pearsona jako celu optymalizacji w uczeniu maszynowym

W uczeniu maszynowym (w przypadku problemów z regresją) często widzę błąd średniej kwadratowej (MSE) lub średni błąd bezwzględny (MAE) jako funkcję błędu w celu zminimalizowania (plus termin regularyzacji). Zastanawiam się, czy istnieją sytuacje, w których zastosowanie współczynnika korelacji byłoby bardziej odpowiednie? jeżeli taka sytuacja istnieje, to: W jakich sytuacjach współczynnik …

12 regression machine-learning svm optimization deep-learning

3

Kodowanie daty / godziny (dane cykliczne) dla sieci neuronowych

Jak zakodować datę i godzinę zdarzenia dla sieci neuronowej? Nie mam ciągłych szeregów czasowych, ale niektóre wydarzenia z datą i godziną, i analizuję pewne zainteresowania. Zainteresowanie to różni się między porankami i wieczorami i różni się między dniami powszednimi oraz między latem a zimą, a także przed Bożym Narodzeniem i …

12 neural-networks deep-learning

3

Modelowanie matematyczne sieci neuronowych jako modeli graficznych

Usiłuję stworzyć matematyczne połączenie między siecią neuronową a modelem graficznym. W modelach graficznych pomysł jest prosty: rozkład prawdopodobieństwa jest rozkładany na czynniki według klików na wykresie, przy czym potencjały zwykle należą do rodziny wykładniczej. Czy istnieje równoważne uzasadnienie dla sieci neuronowej? Czy można wyrazić rozkład prawdopodobieństwa dla jednostek (zmiennych) w …

12 neural-networks markov-process graphical-model deep-learning deep-belief-networks

2

Wybrałeś rozmiar filtra, kroki itp. W CNN?

Patrzyłem na wykłady CS231N z Stanford i staram się ominąć niektóre problemy w architekturach CNN. Próbuję zrozumieć, czy istnieją jakieś ogólne wytyczne dotyczące wybierania rozmiaru filtra splotowego i rzeczy takich jak postępy, czy też jest to bardziej sztuka niż nauka? Rozumiem, że gromadzenie danych istnieje głównie w celu wywołania pewnej …

12 neural-networks deep-learning conv-neural-network

4

Jak istotny jest związek między MLE a entropią krzyżową w głębokim uczeniu się?

I rozumie, że dany zestaw niezależnych obserwacji największej wiarygodności Estymator (lub równoważnie MAP o płaskich / jednolity wcześniej), który identyfikuje Parametry \ mathbf {θ} , które wytwarzają model dystrybucji p_ {wzór} \ left (\, \ cdot \,; \ mathbf {θ} \ right) najlepiej pasujące do tych obserwacjimmmO ={ o( 1 …

12 maximum-likelihood deep-learning cross-entropy

3

Jaki jest związek między teorią gier a uczeniem się przez wzmacnianie?

Interesuje mnie (Deep) Reinforcement Learning (RL) . Czy przed nurkowaniem w tym polu powinienem wziąć udział w kursie z teorii gier (GT) ? W jaki sposób powiązane są GT i RL ?

12 deep-learning reinforcement-learning game-theory

3

Nieliniowość przed końcową warstwą Softmax w splotowej sieci neuronowej

Studiuję i próbuję wdrożyć splotowe sieci neuronowe, ale przypuszczam, że to pytanie dotyczy ogólnie wielowarstwowych perceptronów. Neurony wyjściowe w mojej sieci reprezentują aktywację każdej klasy: najbardziej aktywny neuron odpowiada przewidywanej klasie dla danego wejścia. Aby rozważyć koszt entropii krzyżowej dla szkolenia, dodaję warstwę softmax na końcu sieci, aby wartość aktywacji …

12 neural-networks deep-learning conv-neural-network nonlinear softmax

4

Czy modele głębokiego uczenia są parametryczne? A może nieparametryczny?

Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i dlaczego?

12 neural-networks deep-learning nonparametric parametric

4

Jakie są różnice między autoencoderami a t-SNE?

O ile mi wiadomo, zarówno autoencodery, jak i t-SNE są używane do nieliniowej redukcji wymiarowości. Jakie są między nimi różnice i dlaczego powinienem używać jednego kontra drugiego?

12 neural-networks deep-learning dimensionality-reduction autoencoders tsne

5

Jakiej funkcji utraty należy użyć do wykrywania binarnego w wykrywaniu twarzy / bez twarzy w CNN?

Chcę użyć głębokiego uczenia się, aby trenować wykrywanie binarne twarzy / twarzy, jakiej straty powinienem użyć, myślę, że to SigmoidCrossEntropyLoss lub utrata zawiasów . Zgadza się, ale zastanawiam się też, czy powinienem używać softmax, ale tylko z dwiema klasami?

11 deep-learning loss-functions computer-vision conv-neural-network

1

Przybliżenie drugiego rzędu funkcji utraty (książka do głębokiego uczenia się, 7.33)

W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247). Kwadratowe przybliżenie funkcji kosztu jjj daje: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

4

Wnioskowanie wolne od prawdopodobieństwa - co to znaczy?

Niedawno uświadomiłem sobie, że w literaturze omawiane są metody „pozbawione prawdopodobieństwa”. Nie jestem jednak pewien, co to znaczy, że metoda wnioskowania lub optymalizacji jest wolna od prawdopodobieństwa . W uczeniu maszynowym celem jest zazwyczaj maksymalizacja prawdopodobieństwa, że niektóre parametry dopasują się do funkcji, np. Wagi w sieci neuronowej. Więc jaka …

11 machine-learning deep-learning maximum-likelihood generative-models abc

Pytania otagowane jako deep-learning