Pytania otagowane jako cross-entropy

5
Jaka funkcja strat dla zadań klasyfikacyjnych wielu klas i wielu etykiet w sieciach neuronowych?
Uczę sieci neuronowej, aby klasyfikować zestaw obiektów do n-klas. Każdy obiekt może należeć do wielu klas jednocześnie (wiele klas, wiele etykiet). Czytałem, że w przypadku problemów wieloklasowych ogólnie zaleca się stosowanie softmax i kategorycznej entropii krzyżowej jako funkcji straty zamiast mse i mniej więcej rozumiem dlaczego. W przypadku mojego problemu …

6
Propagacja wsteczna z Softmax / Cross Entropy
Próbuję zrozumieć, jak działa propagacja wsteczna dla warstwy wyjściowej softmax / cross-entropii. Funkcja błędu entropii krzyżowej to E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j z ttt i ooo jako celem i wyjściem odpowiednio w neuronie jjj . Suma jest nad każdym neuronem w warstwie wyjściowej. ojojo_j jest wynikiem funkcji softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Ponownie, …


3
Uczenie maszynowe: czy powinienem stosować kategoryczną utratę entropii krzyżowej lub utratę entropii krzyżowej binarnej do prognoz binarnych?
Przede wszystkim zdałem sobie sprawę, że jeśli muszę wykonać przewidywania binarne, muszę utworzyć co najmniej dwie klasy, wykonując kodowanie „na gorąco”. Czy to jest poprawne? Czy jednak binarna entropia krzyżowa dotyczy tylko predykcji z tylko jedną klasą? Gdybym miał zastosować kategoryczną utratę entropii krzyżowej, która zwykle występuje w większości bibliotek …

2
Dlaczego średni błąd kwadratowy jest entropią krzyżową między rozkładem empirycznym a modelem Gaussa?
W 5.5, Deep Learning (autor: Ian Goodfellow, Yoshua Bengio i Aaron Courville) stwierdza, że Każda strata polegająca na ujemnym logarytmicznym prawdopodobieństwie jest entropią krzyżową między rozkładem empirycznym określonym przez zestaw szkoleniowy a rozkładem prawdopodobieństwa określonym przez model. Na przykład średni błąd kwadratu jest entropią krzyżową między rozkładem empirycznym a modelem …


1
Funkcja utraty dla autoencoderów
Eksperymentuję trochę autoencoderów, a dzięki tensorflow stworzyłem model, który próbuje zrekonstruować zestaw danych MNIST. Moja sieć jest bardzo prosta: X, e1, e2, d1, Y, gdzie e1 i e2 są warstwami kodującymi, d2 i Y są warstwami dekodującymi (a Y jest zrekonstruowanym wyjściem). X ma 784 jednostki, e1 ma 100, e2 …


2
Różne definicje funkcji utraty entropii krzyżowej
Zacząłem uczyć się o sieciach neuronowych w samouczku dotyczącym sieci neuronowych i programowania. W szczególności w trzecim rozdziale znajduje się sekcja o funkcji entropii krzyżowej i definiuje utratę entropii krzyżowej jako: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) Jednak, czytając wprowadzenie Tensorflow , …


1
Intuicyjnie, dlaczego entropia krzyżowa jest miarą odległości dwóch rozkładów prawdopodobieństwa?
Dla dwóch dyskretnych rozkładów i , entropia krzyżowa jest zdefiniowana jakoqpppqqq H(p,q)=−∑xp(x)logq(x).H(p,q)=−∑xp(x)log⁡q(x).H(p,q)=-\sum_x p(x)\log q(x). Zastanawiam się, dlaczego byłby to intuicyjny pomiar odległości między dwoma rozkładami prawdopodobieństwa? Widzę, że jest entropią , która mierzy „zaskoczenie” . jest miarą, która częściowo zastępuje przez . Nadal nie rozumiem intuicyjnego znaczenia definicji.H(p,p)H(p,p)H(p,p)ppppppH(p,q)H(p,q)H(p,q)pppqqq
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.