Statystyki i duże zbiory danych neural-networks

1

Czym dokładnie jest blok Residual Learning w kontekście Deep Residual Networks w Deep Learning?

Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2: co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( …

12 machine-learning neural-networks deep-learning conv-neural-network residual-networks

2

Różne definicje funkcji utraty entropii krzyżowej

Zacząłem uczyć się o sieciach neuronowych w samouczku dotyczącym sieci neuronowych i programowania. W szczególności w trzecim rozdziale znajduje się sekcja o funkcji entropii krzyżowej i definiuje utratę entropii krzyżowej jako: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) Jednak, czytając wprowadzenie Tensorflow , …

12 neural-networks loss-functions softmax cross-entropy

3

Kodowanie daty / godziny (dane cykliczne) dla sieci neuronowych

Jak zakodować datę i godzinę zdarzenia dla sieci neuronowej? Nie mam ciągłych szeregów czasowych, ale niektóre wydarzenia z datą i godziną, i analizuję pewne zainteresowania. Zainteresowanie to różni się między porankami i wieczorami i różni się między dniami powszednimi oraz między latem a zimą, a także przed Bożym Narodzeniem i …

12 neural-networks deep-learning

2

Jak działa operacja DepthConcat w „Zagłębianie się w zwoje”?

Czytając Idąc głębiej ze zwojów natknąłem się DepthConcat warstwie bloku budowlanego proponowanych modułów Incepcja , który łączy wyjście wielu tensorów o różnej wielkości. Autorzy nazywają to „Filter Concatenation”. Wydaje się, że istnieje implementacja Torch , ale tak naprawdę nie rozumiem, co ona robi. Czy ktoś może wyjaśnić prostymi słowami?

12 neural-networks torch conv-neural-network

1

Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

3

Modelowanie matematyczne sieci neuronowych jako modeli graficznych

Usiłuję stworzyć matematyczne połączenie między siecią neuronową a modelem graficznym. W modelach graficznych pomysł jest prosty: rozkład prawdopodobieństwa jest rozkładany na czynniki według klików na wykresie, przy czym potencjały zwykle należą do rodziny wykładniczej. Czy istnieje równoważne uzasadnienie dla sieci neuronowej? Czy można wyrazić rozkład prawdopodobieństwa dla jednostek (zmiennych) w …

12 neural-networks markov-process graphical-model deep-learning deep-belief-networks

2

Jak głęboki jest związek między funkcją softmax w ML a rozkładem Boltzmanna w termodynamice?

Funkcja softmax, powszechnie stosowana w sieciach neuronowych do przekształcania liczb rzeczywistych na prawdopodobieństwa, jest taką samą funkcją jak rozkład Boltzmanna, rozkład prawdopodobieństwa nad energiami dla zespołu cząstek w równowadze termicznej w danej temperaturze T w termodynamice. Widzę pewne wyraźne heurystyczne powody, dla których jest to praktyczne: Bez względu na to, …

12 machine-learning neural-networks softmax

2

Wybrałeś rozmiar filtra, kroki itp. W CNN?

Patrzyłem na wykłady CS231N z Stanford i staram się ominąć niektóre problemy w architekturach CNN. Próbuję zrozumieć, czy istnieją jakieś ogólne wytyczne dotyczące wybierania rozmiaru filtra splotowego i rzeczy takich jak postępy, czy też jest to bardziej sztuka niż nauka? Rozumiem, że gromadzenie danych istnieje głównie w celu wywołania pewnej …

12 neural-networks deep-learning conv-neural-network

3

Nieliniowość przed końcową warstwą Softmax w splotowej sieci neuronowej

Studiuję i próbuję wdrożyć splotowe sieci neuronowe, ale przypuszczam, że to pytanie dotyczy ogólnie wielowarstwowych perceptronów. Neurony wyjściowe w mojej sieci reprezentują aktywację każdej klasy: najbardziej aktywny neuron odpowiada przewidywanej klasie dla danego wejścia. Aby rozważyć koszt entropii krzyżowej dla szkolenia, dodaję warstwę softmax na końcu sieci, aby wartość aktywacji …

12 neural-networks deep-learning conv-neural-network nonlinear softmax

4

Czy modele głębokiego uczenia są parametryczne? A może nieparametryczny?

Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i dlaczego?

12 neural-networks deep-learning nonparametric parametric

4

Jakie są różnice między autoencoderami a t-SNE?

O ile mi wiadomo, zarówno autoencodery, jak i t-SNE są używane do nieliniowej redukcji wymiarowości. Jakie są między nimi różnice i dlaczego powinienem używać jednego kontra drugiego?

12 neural-networks deep-learning dimensionality-reduction autoencoders tsne

1

Przybliżenie drugiego rzędu funkcji utraty (książka do głębokiego uczenia się, 7.33)

W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247). Kwadratowe przybliżenie funkcji kosztu jjj daje: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

2

Dlaczego CNN kończą się warstwami FC?

Z mojego zrozumienia, CNN składają się z dwóch części. Pierwsza część (warstwy konw / pula), która wykonuje ekstrakcję cech, a druga część (warstwy fc), która dokonuje klasyfikacji na podstawie cech. Skoro w pełni połączone sieci neuronowe nie są najlepszymi klasyfikatorami (tzn. Osiągają lepsze wyniki od SVM i RF przez większość …

11 neural-networks svm random-forest conv-neural-network

3

Czułość skali konwolucyjnej sieci neuronowej

Na przykład załóżmy, że budujemy estymator wieku na podstawie obrazu osoby. Poniżej mamy dwie osoby w garniturach, ale pierwsza jest wyraźnie młodsza niż druga. (źródło: tinytux.com ) Sugeruje to wiele funkcji, na przykład struktura twarzy. Jednak najbardziej wymowną cechą jest stosunek wielkości głowy do wielkości ciała : (źródło: wikimedia.org ) …

11 neural-networks computer-vision

3

Jak wdrożyć regularyzację L2 do dowolnego punktu w kosmosie?

Oto coś, co przeczytałem w książce Iana Goodfellow'a Deep Learning . W kontekście sieci neuronowych „kara za normę parametru L2 jest powszechnie znana jako zanik masy. Ta strategia regularyzacji przybliża wagi do źródła [...]. Mówiąc bardziej ogólnie, moglibyśmy uregulować parametry tak, aby znajdowały się w pobliżu dowolnego określonego punktu w …

11 machine-learning neural-networks deep-learning regularization

Pytania otagowane jako neural-networks