Statystyki i duże zbiory danych softmax

4

Softmax vs funkcja Sigmoid w klasyfikatorze logistycznym?

Co decyduje o wyborze funkcji (Softmax vs Sigmoid) w klasyfikatorze logistycznym? Załóżmy, że istnieją 4 klasy wyjściowe. Każda z powyższych funkcji podaje prawdopodobieństwo, że każda klasa będzie poprawnym wyjściem. Który wziąć do klasyfikatora?

62 machine-learning logistic classification softmax

6

Propagacja wsteczna z Softmax / Cross Entropy

Próbuję zrozumieć, jak działa propagacja wsteczna dla warstwy wyjściowej softmax / cross-entropii. Funkcja błędu entropii krzyżowej to E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j z ttt i ooo jako celem i wyjściem odpowiednio w neuronie jjj . Suma jest nad każdym neuronem w warstwie wyjściowej. ojojo_j jest wynikiem funkcji softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Ponownie, …

40 backpropagation derivative softmax cross-entropy

1

Prawdopodobieństwo krzyżowe lub prawdopodobieństwo dziennika w warstwie wyjściowej

Przeczytałem tę stronę: http://neuralnetworksanddeeplearning.com/chap3.html i powiedział, że sigmoidalna warstwa wyjściowa z entropią krzyżową jest dość podobna do warstwy wyjściowej softmax z prawdopodobieństwem logarytmicznym. co się stanie, jeśli użyję sigmoid z logarytmem prawdopodobieństwa lub softmax z entropią krzyżową w warstwie wyjściowej? czy to w porządku? ponieważ widzę, że istnieje niewielka różnica …

31 neural-networks maximum-likelihood softmax

4

Dlaczego dane wyjściowe softmax nie są dobrą miarą niepewności w modelach Deep Learning?

Od jakiegoś czasu pracuję z Convolutional Neural Networks (CNN), głównie nad danymi obrazu do segmentacji semantycznej / segmentacji instancji. Często wizualizowałem softmax wyjścia sieciowego jako „mapę cieplną”, aby zobaczyć, jak wysokie są aktywacje na piksel dla określonej klasy. Zinterpretowałem niskie aktywacje jako „niepewne” / „niepewne”, a wysokie aktywacje jako „pewne” …

22 probability deep-learning conv-neural-network uncertainty softmax

2

Dlaczego funkcja softmax jest używana do obliczania prawdopodobieństw, chociaż każdą wartość możemy podzielić przez sumę wektora?

Zastosowanie funkcji softmax na wektorze spowoduje „prawdopodobieństwa” i wartości od do . 000111 Ale możemy również podzielić każdą wartość przez sumę wektora, co da prawdopodobieństwa i wartości od do .000111 Przeczytałem tutaj odpowiedź , ale mówi ona, że powodem jest to, że jest różniczkowalna, chociaż obie funkcje są różniczkowalne.

20 machine-learning neural-networks softmax

1

Jak skonfigurować sieć neuronową do generowania danych porządkowych?

Mam sieć neuronową skonfigurowaną do przewidywania czegoś, gdzie zmienna wyjściowa jest porządkowa. Opiszę poniżej, używając trzech możliwych wyjść A <B <C. Jest całkiem oczywiste, jak używać sieci neuronowej do generowania danych kategorycznych: dane wyjściowe to tylko softmax ostatniej (zwykle w pełni połączonej) warstwy, jednej na kategorię, a przewidywana kategoria to …

20 neural-networks ordinal-data softmax

1

Caret glmnet vs cv.glmnet

Wydaje się, że istnieje wiele zamieszania w porównaniu używania glmnetwewnątrz w caretcelu znalezienia optymalnej lambdy i korzystania cv.glmnetz tego samego zadania. Zadano wiele pytań, np .: Model klasyfikacji train.glmnet vs. cv.glmnet? Jaki jest właściwy sposób używania glmnet z karetką? Cross-validation `glmnet` za pomocą` caret` ale nie udzielono odpowiedzi, co może …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

3

Dlaczego hierarchiczny softmax jest lepszy dla rzadkich słów, podczas gdy negatywne próbkowanie jest lepsze dla częstych słów?

Zastanawiam się, dlaczego hierarchiczny softmax jest lepszy dla rzadkich słów, podczas gdy negatywne próbkowanie jest lepsze dla częstych słów, w modelach CBOW i skip-gram w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/ .

12 natural-language word2vec word-embeddings softmax

2

Różne definicje funkcji utraty entropii krzyżowej

Zacząłem uczyć się o sieciach neuronowych w samouczku dotyczącym sieci neuronowych i programowania. W szczególności w trzecim rozdziale znajduje się sekcja o funkcji entropii krzyżowej i definiuje utratę entropii krzyżowej jako: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) Jednak, czytając wprowadzenie Tensorflow , …

12 neural-networks loss-functions softmax cross-entropy

2

Jak głęboki jest związek między funkcją softmax w ML a rozkładem Boltzmanna w termodynamice?

Funkcja softmax, powszechnie stosowana w sieciach neuronowych do przekształcania liczb rzeczywistych na prawdopodobieństwa, jest taką samą funkcją jak rozkład Boltzmanna, rozkład prawdopodobieństwa nad energiami dla zespołu cząstek w równowadze termicznej w danej temperaturze T w termodynamice. Widzę pewne wyraźne heurystyczne powody, dla których jest to praktyczne: Bez względu na to, …

12 machine-learning neural-networks softmax

3

Nieliniowość przed końcową warstwą Softmax w splotowej sieci neuronowej

Studiuję i próbuję wdrożyć splotowe sieci neuronowe, ale przypuszczam, że to pytanie dotyczy ogólnie wielowarstwowych perceptronów. Neurony wyjściowe w mojej sieci reprezentują aktywację każdej klasy: najbardziej aktywny neuron odpowiada przewidywanej klasie dla danego wejścia. Aby rozważyć koszt entropii krzyżowej dla szkolenia, dodaję warstwę softmax na końcu sieci, aby wartość aktywacji …

12 neural-networks deep-learning conv-neural-network nonlinear softmax

2

Dlaczego softmax służy do przedstawienia rozkładu prawdopodobieństwa?

W literaturze dotyczącej uczenia maszynowego, aby przedstawić rozkład prawdopodobieństwa, często używana jest funkcja softmax. Czy jest tego powód? Dlaczego nie jest używana inna funkcja?

10 machine-learning distributions softmax

3

Jak zastosować Softmax jako funkcję aktywacji w wielowarstwowym Perceptronie w scikit-learn? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 11 miesięcy temu . Muszę zastosować funkcję aktywacji Softmax na wielowarstwowym Perceptronie w scikit. Scikit documantation na temat modeli sieci neuronowych (nadzorowane) mówi „MLPClassifier obsługuje …

9 neural-networks scikit-learn multi-class softmax

3

Wielomianowa utrata logistyczna vs (Entropia krzyżowa vs błąd kwadratowy)

Zauważyłem, że Caffe (platforma do głębokiego uczenia się) używała Softmax Loss Layer SoftmaxWithLoss jako warstwy wyjściowej dla większości próbek modelu . O ile mi wiadomo, warstwa Softmax Loss jest połączeniem warstwy wielomianowej straty logistycznej i warstwy Softmax . Powiedzieli to od Caffe Obliczanie gradientu warstwy Softmax Loss Layer jest bardziej …

9 multinomial entropy sums-of-squares softmax

Pytania otagowane jako softmax