Próbuję wytrenować sieć neuronową do klasyfikacji, ale etykiety, które mam, są raczej hałaśliwe (około 30% etykiet jest błędnych).
Strata między entropią rzeczywiście działa, ale zastanawiałem się, czy są jakieś alternatywy bardziej skuteczne w tym przypadku? czy utrata przez entropię jest optymalna?
Nie jestem pewien, ale myślę o pewnym „przycięciu” utraty entropii krzyżowej, tak że utrata jednego punktu danych nie będzie większa niż górna granica, czy to zadziała?
Dzięki!
Aktualizacja
Zgodnie z odpowiedzią Lucasa, otrzymałem następujące dane dla pochodnych dla wyjściowej prognozy i wejścia funkcji softmax z . Sądzę więc, że w zasadzie dodaje się termin wygładzający 3 do instrumentów pochodnych. pi=0,3/N+0,7yil=-∑tilog(pi)∂l
Aktualizacja
Właśnie zdarzyło mi się przeczytać artykuł Google, który stosuje tę samą formułę jak w odpowiedzi Lucasa, ale z różnymi interpretacjami.
W rozdziale 7 Regularyzacja modelu poprzez wygładzanie etykiet
Ale zamiast dodać termin wygładzający do prognoz, dodali go do podstawowej prawdy , która okazała się pomocna.