Uważaj na nadmierne dopasowanie . Dokładniejszy model zebranych danych z systemu może nie być lepszym predyktorem przyszłych zachowań systemu.
Powyższe zdjęcie pokazuje dwa modele niektórych danych.
Linia liniowa jest dość dokładna na danych treningowych (punkty na wykresie) i (można się spodziewać) będzie nieco dokładna na danych testowych (gdzie punkty prawdopodobnie będą dla x <5 i x> -5 ).
Natomiast wielomian jest w 100% dokładny dla danych treningowych, ale (chyba że masz powód, by sądzić, że wielomian 9 stopnia jest uzasadniony z jakiegoś powodu fizycznego), możesz założyć, że będzie to bardzo słaby predyktor dla x> 5 i x <-5.
Model liniowy jest „mniej dokładny”, oparty na jakimkolwiek porównaniu błędów z danymi, które zebraliśmy. Ale to jest bardziej uogólnione.
Ponadto inżynierowie muszą mniej martwić się o swój model, a więcej o to, co ludzie zrobią z tym modelem.
Jeśli powiem ci, że idziemy na spacer w upalny dzień i potrwa to 426 minut. Prawdopodobnie przyniesiesz mniej wody, niż gdybym ci powiedział, że spacer potrwa 7 godzin, a nawet mniej niż jeśli powiem, że spacer potrwa 4-8 godzin. Wynika to z tego, że reagujesz na mój domyślny poziom zaufania do mojej prognozy, a nie w połowie moich podanych czasów.
Jeśli podasz ludziom dokładny model, ludzie zmniejszą margines błędu. Prowadzi to do większego ryzyka.
Biorąc przykład na spacer w upalny dzień, jeśli wiem, że spacer zajmie 4-8 godzin w 95% przypadków, z pewną niepewnością dotyczącą nawigacji i prędkości marszu. Doskonale wiedząc, że nasza prędkość marszu zmniejszy niepewność liczby 4-8, ale nie wpłynie znacząco na „szansę, że będziemy tak długo czekać, że woda stanie się problemem”, ponieważ jest ona napędzana prawie całkowicie przez niepewną nawigację, a nie niepewna prędkość chodzenia.