Pytania otagowane jako softmax

Normalizująca funkcja wykładnicza, która przekształca wektor numeryczny w taki sposób, że wszystkie jego wpisy stają się od 0 do 1 i razem sumują się do 1. Jest często używana jako ostatnia warstwa sieci neuronowej wykonującej zadanie klasyfikacyjne.


6
Propagacja wsteczna z Softmax / Cross Entropy
Próbuję zrozumieć, jak działa propagacja wsteczna dla warstwy wyjściowej softmax / cross-entropii. Funkcja błędu entropii krzyżowej to E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j z ttt i ooo jako celem i wyjściem odpowiednio w neuronie jjj . Suma jest nad każdym neuronem w warstwie wyjściowej. ojojo_j jest wynikiem funkcji softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Ponownie, …

1
Prawdopodobieństwo krzyżowe lub prawdopodobieństwo dziennika w warstwie wyjściowej
Przeczytałem tę stronę: http://neuralnetworksanddeeplearning.com/chap3.html i powiedział, że sigmoidalna warstwa wyjściowa z entropią krzyżową jest dość podobna do warstwy wyjściowej softmax z prawdopodobieństwem logarytmicznym. co się stanie, jeśli użyję sigmoid z logarytmem prawdopodobieństwa lub softmax z entropią krzyżową w warstwie wyjściowej? czy to w porządku? ponieważ widzę, że istnieje niewielka różnica …

4
Dlaczego dane wyjściowe softmax nie są dobrą miarą niepewności w modelach Deep Learning?
Od jakiegoś czasu pracuję z Convolutional Neural Networks (CNN), głównie nad danymi obrazu do segmentacji semantycznej / segmentacji instancji. Często wizualizowałem softmax wyjścia sieciowego jako „mapę cieplną”, aby zobaczyć, jak wysokie są aktywacje na piksel dla określonej klasy. Zinterpretowałem niskie aktywacje jako „niepewne” / „niepewne”, a wysokie aktywacje jako „pewne” …

2
Dlaczego funkcja softmax jest używana do obliczania prawdopodobieństw, chociaż każdą wartość możemy podzielić przez sumę wektora?
Zastosowanie funkcji softmax na wektorze spowoduje „prawdopodobieństwa” i wartości od do . 000111 Ale możemy również podzielić każdą wartość przez sumę wektora, co da prawdopodobieństwa i wartości od do .000111 Przeczytałem tutaj odpowiedź , ale mówi ona, że ​​powodem jest to, że jest różniczkowalna, chociaż obie funkcje są różniczkowalne.

1
Jak skonfigurować sieć neuronową do generowania danych porządkowych?
Mam sieć neuronową skonfigurowaną do przewidywania czegoś, gdzie zmienna wyjściowa jest porządkowa. Opiszę poniżej, używając trzech możliwych wyjść A <B <C. Jest całkiem oczywiste, jak używać sieci neuronowej do generowania danych kategorycznych: dane wyjściowe to tylko softmax ostatniej (zwykle w pełni połączonej) warstwy, jednej na kategorię, a przewidywana kategoria to …

1
Caret glmnet vs cv.glmnet
Wydaje się, że istnieje wiele zamieszania w porównaniu używania glmnetwewnątrz w caretcelu znalezienia optymalnej lambdy i korzystania cv.glmnetz tego samego zadania. Zadano wiele pytań, np .: Model klasyfikacji train.glmnet vs. cv.glmnet? Jaki jest właściwy sposób używania glmnet z karetką? Cross-validation `glmnet` za pomocą` caret` ale nie udzielono odpowiedzi, co może …


2
Różne definicje funkcji utraty entropii krzyżowej
Zacząłem uczyć się o sieciach neuronowych w samouczku dotyczącym sieci neuronowych i programowania. W szczególności w trzecim rozdziale znajduje się sekcja o funkcji entropii krzyżowej i definiuje utratę entropii krzyżowej jako: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) Jednak, czytając wprowadzenie Tensorflow , …

2
Jak głęboki jest związek między funkcją softmax w ML a rozkładem Boltzmanna w termodynamice?
Funkcja softmax, powszechnie stosowana w sieciach neuronowych do przekształcania liczb rzeczywistych na prawdopodobieństwa, jest taką samą funkcją jak rozkład Boltzmanna, rozkład prawdopodobieństwa nad energiami dla zespołu cząstek w równowadze termicznej w danej temperaturze T w termodynamice. Widzę pewne wyraźne heurystyczne powody, dla których jest to praktyczne: Bez względu na to, …

3
Nieliniowość przed końcową warstwą Softmax w splotowej sieci neuronowej
Studiuję i próbuję wdrożyć splotowe sieci neuronowe, ale przypuszczam, że to pytanie dotyczy ogólnie wielowarstwowych perceptronów. Neurony wyjściowe w mojej sieci reprezentują aktywację każdej klasy: najbardziej aktywny neuron odpowiada przewidywanej klasie dla danego wejścia. Aby rozważyć koszt entropii krzyżowej dla szkolenia, dodaję warstwę softmax na końcu sieci, aby wartość aktywacji …


3
Jak zastosować Softmax jako funkcję aktywacji w wielowarstwowym Perceptronie w scikit-learn? [Zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 11 miesięcy temu . Muszę zastosować funkcję aktywacji Softmax na wielowarstwowym Perceptronie w scikit. Scikit documantation na temat modeli sieci neuronowych (nadzorowane) mówi „MLPClassifier obsługuje …

3
Wielomianowa utrata logistyczna vs (Entropia krzyżowa vs błąd kwadratowy)
Zauważyłem, że Caffe (platforma do głębokiego uczenia się) używała Softmax Loss Layer SoftmaxWithLoss jako warstwy wyjściowej dla większości próbek modelu . O ile mi wiadomo, warstwa Softmax Loss jest połączeniem warstwy wielomianowej straty logistycznej i warstwy Softmax . Powiedzieli to od Caffe Obliczanie gradientu warstwy Softmax Loss Layer jest bardziej …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.