Zrozumiałem problem nadmiernego dopasowania, wyobrażając sobie, jaki byłby najbardziej dopasowany model. Zasadniczo byłby to prosty stół przeglądowy.
Poinformujesz model, jakie atrybuty ma każdy kawałek danych, a on po prostu zapamięta go i nic więcej z nim nie robi. Jeśli podasz mu kawałek danych, które widział wcześniej, to sprawdzi go i po prostu cofnie to, co powiedziałeś wcześniej. Jeśli podasz dane, których wcześniej nie widział, wynik jest nieprzewidywalny lub losowy. Ale uczenie maszynowe nie polega na mówieniu o tym, co się stało, lecz na zrozumieniu wzorców i wykorzystaniu tych wzorców do przewidywania, co się dzieje.
Pomyśl o drzewie decyzyjnym. Jeśli będziesz stale powiększać swoje drzewo decyzyjne, w końcu skończysz z drzewem, w którym każdy węzeł liścia oparty jest na dokładnie jednym punkcie danych. Właśnie znalazłeś backdoora do stworzenia tabeli przeglądowej.
Aby uogólnić swoje wyniki, aby dowiedzieć się, co może się wydarzyć w przyszłości, musisz stworzyć model, który uogólni to, co dzieje się w zestawie treningowym. Modele overfit świetnie sobie radzą z opisywaniem danych, które już masz, ale modele opisowe niekoniecznie są modelami predykcyjnymi.
Twierdzenie o braku darmowego lunchu mówi, że żaden model nie może przewyższyć żadnego innego modelu na zbiorze wszystkich możliwych instancji. Jeśli chcesz przewidzieć, co będzie dalej w sekwencji liczb „2, 4, 16, 32”, nie możesz zbudować modelu dokładniejszego niż jakikolwiek inny, jeśli nie przyjmiesz, że istnieje wzorzec podstawowy. Model, który jest zbyt dopasowany, tak naprawdę nie ocenia wzorów - po prostu modeluje to, co wie, że jest możliwe i daje obserwacje. Otrzymujesz moc predykcyjną, zakładając, że istnieje jakaś podstawowa funkcja i że jeśli potrafisz określić, co to za funkcja, możesz przewidzieć wynik zdarzeń. Ale jeśli tak naprawdę nie ma wzorca, masz pecha, a wszystko, na co możesz liczyć, to tabela przeglądowa, która powie ci, co wiesz, że jest możliwe.