Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2: co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( …
Zacząłem uczyć się o sieciach neuronowych w samouczku dotyczącym sieci neuronowych i programowania. W szczególności w trzecim rozdziale znajduje się sekcja o funkcji entropii krzyżowej i definiuje utratę entropii krzyżowej jako: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjlnajL+(1−yj)ln(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) Jednak, czytając wprowadzenie Tensorflow , …
Jak zakodować datę i godzinę zdarzenia dla sieci neuronowej? Nie mam ciągłych szeregów czasowych, ale niektóre wydarzenia z datą i godziną, i analizuję pewne zainteresowania. Zainteresowanie to różni się między porankami i wieczorami i różni się między dniami powszednimi oraz między latem a zimą, a także przed Bożym Narodzeniem i …
Czytając Idąc głębiej ze zwojów natknąłem się DepthConcat warstwie bloku budowlanego proponowanych modułów Incepcja , który łączy wyjście wielu tensorów o różnej wielkości. Autorzy nazywają to „Filter Concatenation”. Wydaje się, że istnieje implementacja Torch , ale tak naprawdę nie rozumiem, co ona robi. Czy ktoś może wyjaśnić prostymi słowami?
Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …
Usiłuję stworzyć matematyczne połączenie między siecią neuronową a modelem graficznym. W modelach graficznych pomysł jest prosty: rozkład prawdopodobieństwa jest rozkładany na czynniki według klików na wykresie, przy czym potencjały zwykle należą do rodziny wykładniczej. Czy istnieje równoważne uzasadnienie dla sieci neuronowej? Czy można wyrazić rozkład prawdopodobieństwa dla jednostek (zmiennych) w …
Funkcja softmax, powszechnie stosowana w sieciach neuronowych do przekształcania liczb rzeczywistych na prawdopodobieństwa, jest taką samą funkcją jak rozkład Boltzmanna, rozkład prawdopodobieństwa nad energiami dla zespołu cząstek w równowadze termicznej w danej temperaturze T w termodynamice. Widzę pewne wyraźne heurystyczne powody, dla których jest to praktyczne: Bez względu na to, …
Patrzyłem na wykłady CS231N z Stanford i staram się ominąć niektóre problemy w architekturach CNN. Próbuję zrozumieć, czy istnieją jakieś ogólne wytyczne dotyczące wybierania rozmiaru filtra splotowego i rzeczy takich jak postępy, czy też jest to bardziej sztuka niż nauka? Rozumiem, że gromadzenie danych istnieje głównie w celu wywołania pewnej …
Studiuję i próbuję wdrożyć splotowe sieci neuronowe, ale przypuszczam, że to pytanie dotyczy ogólnie wielowarstwowych perceptronów. Neurony wyjściowe w mojej sieci reprezentują aktywację każdej klasy: najbardziej aktywny neuron odpowiada przewidywanej klasie dla danego wejścia. Aby rozważyć koszt entropii krzyżowej dla szkolenia, dodaję warstwę softmax na końcu sieci, aby wartość aktywacji …
Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i dlaczego?
O ile mi wiadomo, zarówno autoencodery, jak i t-SNE są używane do nieliniowej redukcji wymiarowości. Jakie są między nimi różnice i dlaczego powinienem używać jednego kontra drugiego?
W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247). Kwadratowe przybliżenie funkcji kosztu jjj daje: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2
Z mojego zrozumienia, CNN składają się z dwóch części. Pierwsza część (warstwy konw / pula), która wykonuje ekstrakcję cech, a druga część (warstwy fc), która dokonuje klasyfikacji na podstawie cech. Skoro w pełni połączone sieci neuronowe nie są najlepszymi klasyfikatorami (tzn. Osiągają lepsze wyniki od SVM i RF przez większość …
Na przykład załóżmy, że budujemy estymator wieku na podstawie obrazu osoby. Poniżej mamy dwie osoby w garniturach, ale pierwsza jest wyraźnie młodsza niż druga. (źródło: tinytux.com ) Sugeruje to wiele funkcji, na przykład struktura twarzy. Jednak najbardziej wymowną cechą jest stosunek wielkości głowy do wielkości ciała : (źródło: wikimedia.org ) …
Oto coś, co przeczytałem w książce Iana Goodfellow'a Deep Learning . W kontekście sieci neuronowych „kara za normę parametru L2 jest powszechnie znana jako zanik masy. Ta strategia regularyzacji przybliża wagi do źródła [...]. Mówiąc bardziej ogólnie, moglibyśmy uregulować parametry tak, aby znajdowały się w pobliżu dowolnego określonego punktu w …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.