Mam nadzieję, że poniższe fragmenty zapewnią wgląd w to, jakie będzie moje pytanie. Są one z http://neuralnetworksanddeeplearning.com/chap3.html
Uczenie się następnie stopniowo zwalnia. Wreszcie, mniej więcej w epoce 280 dokładność klasyfikacji przestaje się poprawiać. Późniejsze epoki po prostu widzą niewielkie fluktuacje stochastyczne w pobliżu wartości dokładności z epoki 280. Porównaj to z wcześniejszym wykresem, gdzie koszt związany z danymi treningowymi nadal gładko spada. Jeśli spojrzymy tylko na ten koszt, okaże się, że nasz model wciąż się poprawia. Ale wyniki dokładności testu pokazują, że poprawa jest iluzją. Podobnie jak model, którego Fermi nie lubił, to czego uczy się nasza sieć po epoce 280, nie uogólnia się na dane testowe. A zatem nie jest to przydatne do nauki. Mówimy, że sieć jest przeładowana lub przetrenowana po epoce 280.
Trenujemy sieć neuronową, a koszt (na danych treningowych) spada aż do epoki 400, ale dokładność klasyfikacji staje się statyczna (z wyjątkiem kilku fluktuacji stochastycznych) po epoce 280, więc dochodzimy do wniosku, że model nie pasuje do danych treningowych po epoce 280.
Widzimy, że koszt danych testowych poprawia się aż do około 15 epoki, ale potem faktycznie zaczyna się pogarszać, nawet jeśli koszt danych treningowych wciąż się poprawia. To kolejny znak, że nasz model jest zbyt dobry. Stanowi to jednak zagadkę, która polega na tym, czy epokę 15, czy epokę 280 należy uznać za punkt, w którym naduczenie zaczyna dominować w nauce? Z praktycznego punktu widzenia tak naprawdę zależy nam na poprawie dokładności klasyfikacji danych testowych, a koszt danych testowych to jedynie przybliżenie dokładności klasyfikacji. Dlatego najbardziej sensowne jest uznanie epoki 280 za punkt, powyżej którego nadmierne dopasowanie dominuje w nauce w naszej sieci neuronowej.
W przeciwieństwie do dokładności klasyfikacji danych testowych w porównaniu z kosztami szkolenia poprzednio, teraz kładziemy koszty danych testowych w stosunku do kosztów szkolenia.
Następnie książka wyjaśnia, dlaczego 280 jest właściwą epoką, w której zaczęło się przeuczenie. Z tym mam problem. Nie mogę się tym otulić.
Prosimy model o zminimalizowanie kosztu, a zatem koszt jest miarą, której używa jako miary własnej siły do prawidłowej klasyfikacji. Jeśli uznamy 280 za właściwą epokę, w której rozpoczęło się przeuczenie, to czy w pewien sposób nie stworzyliśmy modelu stronniczego, który wprawdzie jest lepszym klasyfikatorem konkretnych danych testowych, ale mimo to podejmuje decyzje z niskim poziomem pewności, a zatem jest bardziej podatny na odchylenie z wyników pokazanych na danych testowych?