Pomyślmy o następujących sytuacjach:
- Uczysz robota gry w ping ponga
- Uczysz program do obliczania pierwiastka kwadratowego
- Uczysz matematyki dziecko w szkole
Te sytuacje (tj. Nadzorowane uczenie się) i wiele innych łączy jedną rzecz (między innymi): uczący się otrzymuje nagrodę na podstawie wyników.
Moje pytanie brzmi: jak powinna wyglądać funkcja nagrody? Czy istnieje „najlepsza” odpowiedź, czy zależy to od sytuacji? Jeśli zależy to od sytuacji, jak określić, którą funkcję nagrody wybrać?
Weźmy na przykład następujące trzy funkcje nagrody:
- Funkcja
A
mówi:- poniżej pewnego punktu, złe lub gorsze są takie same: nic nie dostajesz
- istnieje wyraźna różnica między prawie dobrym a doskonałym
- Funkcja
B
mówi:- otrzymujesz nagrodę liniowo proporcjonalnie do swojej wydajności
- Funkcja
C
mówi:- jeśli twoje wyniki są złe, jest w porządku, dałeś z siebie wszystko: nadal otrzymujesz nagrodę
- nie ma dużej różnicy między doskonałym a prawie dobrym
Intuicyjnie pomyślałbym, że A
sprawiłby, że robot byłby bardzo skoncentrowany i nauczył się dokładnego wzoru, ale stałby się głupi, gdy C
miałby do czynienia z podobnymi wzorami, a jednocześnie uczyniłby go bardziej elastycznym do zmiany kosztem utraty perfekcji.
Można również pomyśleć o bardziej złożonych funkcjach, aby pokazać tylko kilka:
Skąd więc wiadomo, którą funkcję wybrać? Wiadomo, których zachowanie może pojawić się z (co najmniej) podstawowy A
, B
a C
funkcje?
Bocznym pytaniem jest, czy byłoby to zasadniczo inne w przypadku robotów i ludzkich dzieci?
A
, robot może stać się wyjątkowo dobry w dokładnym zadaniu, ale okropny w zadaniach, które są podobne, ale nieco inne. To tylko moje przypuszczenie.
X
dała mi najlepszy wynik”, nawet jeśli nie do końca poprawna, dałaby wielką praktyczną zasadę.