n = 4
To powiedziawszy, jedna sytuacja, w której więcej danych nie pomaga --- a może nawet boli --- jest, jeśli twoje dodatkowe dane treningowe są hałaśliwe lub nie pasują do tego, co próbujesz przewidzieć. Kiedyś przeprowadziłem eksperyment, w którym podłączyłem różne modele językowe [*] do aktywowanego głosem systemu rezerwacji restauracji. Zróżnicowałem ilość danych treningowych, a także ich znaczenie: z jednej strony miałem niewielką, starannie wyselekcjonowaną kolekcję stolików rezerwacyjnych, co idealnie pasowało do mojej aplikacji. Z drugiej strony miałem model oszacowany na podstawie ogromnego zbioru klasycznej literatury, dokładniejszy model językowy, ale znacznie gorszy w porównaniu do aplikacji. Ku mojemu zdziwieniu, mały, ale istotny model znacznie przewyższał duży, ale mniej istotny model.
Zaskakująca sytuacja, zwana
podwójnym zejściem , występuje również, gdy rozmiar zestawu treningowego jest zbliżony do liczby parametrów modelu. W takich przypadkach ryzyko testu najpierw maleje wraz ze wzrostem wielkości zestawu treningowego, przejściowo
wzrasta gdy dodaje się nieco więcej danych treningowych, a na koniec zaczyna się ponownie zmniejszać w miarę wzrostu zestawu treningowego. Zjawisko to opisano 25 lat w literaturze dotyczącej sieci neuronowych (patrz Opper, 1995), ale występuje również w nowoczesnych sieciach (
Advani i Saxe, 2017 ). Co ciekawe, dzieje się tak nawet w przypadku regresji liniowej, choć w jednym dopasowaniu według SGD (
Nakkiran, 2019). Zjawisko to nie jest jeszcze w pełni zrozumiałe i jest w dużej mierze przedmiotem zainteresowania teoretycznego: z pewnością nie użyłbym tego jako powodu, aby nie zbierać więcej danych (chociaż mógłbym majstrować przy rozmiarze zestawu treningowego, gdyby n == p, a wydajność była nieoczekiwanie słaba ).
P.( wn= „szybki”, wn + 1= „brązowy”, wn + 2= „lis” )