Jaka funkcja nagrody prowadzi do optymalnego uczenia się?


13

Pomyślmy o następujących sytuacjach:

  • Uczysz robota gry w ping ponga
  • Uczysz program do obliczania pierwiastka kwadratowego
  • Uczysz matematyki dziecko w szkole

Te sytuacje (tj. Nadzorowane uczenie się) i wiele innych łączy jedną rzecz (między innymi): uczący się otrzymuje nagrodę na podstawie wyników.

Moje pytanie brzmi: jak powinna wyglądać funkcja nagrody? Czy istnieje „najlepsza” odpowiedź, czy zależy to od sytuacji? Jeśli zależy to od sytuacji, jak określić, którą funkcję nagrody wybrać?

Weźmy na przykład następujące trzy funkcje nagrody:

wprowadź opis zdjęcia tutaj

  • Funkcja Amówi:
    • poniżej pewnego punktu, złe lub gorsze są takie same: nic nie dostajesz
    • istnieje wyraźna różnica między prawie dobrym a doskonałym
  • Funkcja Bmówi:
    • otrzymujesz nagrodę liniowo proporcjonalnie do swojej wydajności
  • Funkcja Cmówi:
    • jeśli twoje wyniki są złe, jest w porządku, dałeś z siebie wszystko: nadal otrzymujesz nagrodę
    • nie ma dużej różnicy między doskonałym a prawie dobrym

Intuicyjnie pomyślałbym, że Asprawiłby, że robot byłby bardzo skoncentrowany i nauczył się dokładnego wzoru, ale stałby się głupi, gdy Cmiałby do czynienia z podobnymi wzorami, a jednocześnie uczyniłby go bardziej elastycznym do zmiany kosztem utraty perfekcji.

Można również pomyśleć o bardziej złożonych funkcjach, aby pokazać tylko kilka:

wprowadź opis zdjęcia tutaj

Skąd więc wiadomo, którą funkcję wybrać? Wiadomo, których zachowanie może pojawić się z (co najmniej) podstawowy A, Ba Cfunkcje?


Bocznym pytaniem jest, czy byłoby to zasadniczo inne w przypadku robotów i ludzkich dzieci?


Wątpię, czy robot stałby się głupi, robiąc to samo lub podobne rzeczy w kółko, chyba że byłby cybernetyczny.
ott--

@ott, nie o to mi chodziło. Miałem na myśli funkcję nagrody podobną do A, robot może stać się wyjątkowo dobry w dokładnym zadaniu, ale okropny w zadaniach, które są podobne, ale nieco inne. To tylko moje przypuszczenie.
Shahbaz

Ach, ok, rozumiem. Myślisz o tenisie, np.
ott

Być może teoria, która się za tym kryje, może być skomplikowana, ale odpowiedź, która mówi: „Myślałem o wielu zadaniach dla wielu robotów i często działała, Xdała mi najlepszy wynik”, nawet jeśli nie do końca poprawna, dałaby wielką praktyczną zasadę.
Shahbaz

Odpowiedzi:


5

Krótka odpowiedź: najsilniejszy efekt wzmocnienia pochodzi z dostarczenia cennej nagrody w przerywanym (losowym) harmonogramie.

Dłuższa wersja: jednym z aspektów twojego pytania jest warunkowanie operantem , przynajmniej jeśli dotyczy nauczania matematyki złożonego organizmu. Zastosowanie tego do uczenia maszynowego jest znane jako uczenie się przez wzmacnianie .

Ekonomia (zgodnie z odpowiedzią jwpat7 ) dotyczy tylko jednej części historii wzmocnienia. Funkcja użyteczności informuje, która nagroda ma najsilniejszy efekt wzmocnienia (największy wpływ na zachowanie) w danym kontekście. Czy to pochwała? czekolada? kokaina? bezpośrednia stymulacja elektryczna do niektórych obszarów mózgu? Przeważnie moja odpowiedź dotyczy efektu kontekstu, zakładając daną użyteczność nagrody.

W przypadku złożonych organizmów / zachowań planowanie nagród jest co najmniej tak samo ważne jak użyteczność nagród:

  • A „na czas przedział harmonogram nagroda” jest najmniej skutecznym sposobem, aby zmodyfikować zachowanie przy danej ilości nagrodę (będę wam dać $ 10 na tydzień, jeśli trzymać sypialni Tidy). Pomyśl o tłuczku.
  • Harmonogramy nagród o stałych proporcjach (dam ci 10 $ co siedem dni, kiedy masz schludną sypialnię) są bardziej skuteczne niż ustalone interwały, ale mają pewnego rodzaju pułap efektywności (podmiot będzie sprzątał swój pokój siedem razy, gdy będą głodni $) 10, ale nie inaczej). Pomyśl najemnik.
  • Najbardziej wpływowy sposób na dostarczenie nagrody za pomocą „harmonogramu zbrojenia o zmiennym odstępie czasu” (np. Każdego dnia, gdy sprzątasz sypialnię, masz 1/7 szansy na zdobycie 10 $). Pomyśl o maszynie do pokera.

Jeśli jesteś opiekunem edukacyjnym o ustalonym budżecie nagrody, w danej sytuacji edukacyjnej będzie optymalna równowaga między wielkością nagrody (użytecznością) a częstotliwością. Prawdopodobnie nie jest to bardzo mały kawałek nagrody o bardzo wysokiej częstotliwości, ani bardzo duża część nagrody dostarczana bardzo rzadko. Może to być nawet nagroda o losowej wielkości według losowego harmonogramu - optymalne jest zwykle określane eksperymentalnie dla konkretnej sytuacji.

Wreszcie harmonogram „optymalny” (częstotliwość losowa, ilość losowa {p (nagroda), p (wartość)}) prawdopodobnie będzie się zmieniać na różnych etapach procesu uczenia się. Na przykład nowy uczeń może zostać poddany efektowi „pierwszeństwa” (witaj! Miej żelki), który szybko staje się nagrodą o ustalonym odstępie czasu, jeśli go powtórzysz. Może występować efekt „powtarzania”, który zyskuje większą wartość wzmocnienia z nagrody dostarczonej w ostatniej próbie („kończenie na wysokim poziomie”). W międzyczasie może wystąpić kumulacyjny „efekt wiary”, w którym w miarę jak uczeń staje się bardziej doświadczony, optymalne może z czasem zmienić się w kierunku niższego prawdopodobieństwa, wyższej użyteczności. Ponownie, więcej rzeczy do ustalenia empirycznie w twojej sytuacji.


Bardzo interesująca odpowiedź. To ma sens.
Shahbaz

Ponownie czytam tę odpowiedź i chciałbym jeszcze raz powiedzieć, jak wspaniała jest ta odpowiedź! W rzeczywistości pozwól, że dam ci nagrodę!
Shahbaz,

6

„Optymalne uczenie się” jest bardzo niejasnym terminem i całkowicie zależy od konkretnego problemu, nad którym pracujesz. Termin, którego szukasz, to „ nadmierne dopasowanie ”: wprowadź opis zdjęcia tutaj

(Zielona linia to błąd w przewidywaniu wyniku na danych szkoleniowych, fioletowa linia to jakość modelu, a czerwona linia to błąd wyuczonego modelu używanego „w produkcji”)

Innymi słowy: jeśli chodzi o dostosowanie wyuczonego zachowania do podobnych problemów, to, jak nagradzałeś swój system, jest mniej ważne niż to, ile razy go nagradzałeś - chcesz ograniczyć błędy w danych treningowych, ale nie utrzymywać go w treningu, więc długo, że traci zdolność do pracy na podobnych modelach.

Jedną z metod rozwiązania tego problemu jest przecięcie danych treningowych na pół: wykorzystaj jedną połowę do nauki, a drugą połowę do zatwierdzenia szkolenia. Pomaga zidentyfikować, kiedy zaczyna się nadmiernie dopasowywać.

Nieliniowe funkcje nagrody

Większość nadzorowanych algorytmów uczenia się oczekuje, że zastosowanie funkcji nagrody spowoduje wypukły wynik. Innymi słowy, lokalne minima na tej krzywej zapobiegną konwergencji systemu do właściwego zachowania. Ten film pokazuje trochę matematyki za funkcjami kosztów / nagród .


3

Kwestie te zostały w pewnym stopniu uwzględnione w badaniu funkcji użyteczności w ekonomii. Funkcja użyteczności wyraża skuteczne lub postrzegane wartości jednej rzeczy w kategoriach innej. (Podczas gdy krzywe przedstawione w pytaniu są funkcjami nagrody i wyrażają, ile nagród zostanie przyznanych dla różnych poziomów wydajności, podobnie wyglądające funkcje użytkowe mogą wyrażać, ile wydajności wynika z różnych poziomów nagrody).

To, która funkcja nagrody będzie działać najlepiej, zależy od równowagi między płatnikiem a wykonawcą. Artykuł dotyczący krzywej kontraktu wikipedii ilustruje z polami Edgewortha, jak znaleźć efektywne przydziały Pareto . Narzędzie Von Neumanna Morgenstern twierdzenie wyznacza warunków, które zapewniają, że środek jest VNM-racjonalne i mogą być scharakteryzowane jako posiadające funkcję użytkową. Sekcja „Prognozy behawioralne wynikające z narzędzia HARA” w artykule o hiperbolicznej bezwzględnej awersji do ryzyka w wikipedii opisuje konsekwencje behawioralne niektórych funkcji narzędziowych.

Podsumowanie: Tematy te były przedmiotem ogromnych badań w dziedzinie ekonomii i mikroekonomii. Niestety wyodrębnienie krótkiego i przydatnego streszczenia, które odpowiada na twoje pytanie, może również wymagać ogromnej ilości pracy lub uwagi kogoś bardziej zaawansowanego niż ja.


To dość skomplikowane, nie jestem pewien, czy to rozumiem. Ale czy na pewno funkcja użyteczności ekonomii dotyczy również robotyki? W uczeniu nadzorowanym (robota) płatnik tak naprawdę niczego nie traci. Nagrodą często byłaby tylko liczba informująca robota, jak dobrze wykonali to zadanie.
Shahbaz

1

Optymalna funkcja nagrody zależy od celu uczenia się, czyli tego, czego należy się nauczyć. W przypadku prostych problemów może być możliwe znalezienie formy zamkniętej dla optymalnej funkcji nagrody. W rzeczywistości w przypadku naprawdę prostych problemów jestem pewien, że jest to możliwe, choć nie znam formalnych metod (podejrzewam, że teoria użyteczności rozwiązałaby to pytanie). W przypadku bardziej złożonych problemów argumentowałbym, że nie jest możliwe znalezienie rozwiązania w formie zamkniętej.

Zamiast szukać optymalnej funkcji, możemy zwrócić się do eksperta o dobrą funkcję nagrody. Jednym z takich podejść jest technika nazywana uczeniem się odwrotnego zbrojenia (IRL). Formułuje problem uczenia się jako problem uczenia się wzmacniającego, w którym funkcja nagrody nie jest znana, a cel procesu uczenia się. Artykuł Uczenie się przez praktykę za pomocą uczenia odwrotnego przez Pietera Abbeela i Andrew Ng jest dobrym miejscem do rozpoczęcia nauki o IRL.


0

Każda forma nadzorowanego uczenia się jest ukierunkowanym wyszukiwaniem w obszarze polityki. Próbujesz znaleźć zasadę - a więc jaką akcję podjąć - która zapewnia maksymalne oczekiwane wynagrodzenie. W swoim pytaniu dajesz nagrodę jako funkcję wydajności. Tak długo, jak ta funkcja jest monotoniczna, jakakolwiek metoda, która się zbiega, ostatecznie zapewni maksymalną wydajność (zbyt trzymaj się terminologii).

Szybkość zbieżności metody to inna sprawa i może zależeć od krzywej. Ale myślę, że będzie to różnić się w zależności od metody.

Zupełnie innym problemem jest to, że w przypadku bardziej złożonych scenariuszy wydajność nie jest zwykłym skalarem, a zdefiniowanie jej może być dość trudne. Jaka jest funkcja nagrody za bycie dobrym w matematyce?


Szybkość zbieżności metody to inna sprawa i może zależeć od krzywej. , Ależ oczywiście. Próbowałem zrozumieć, w jaki sposób krzywa wpływa na uczenie się (a nie jeśli tak, ponieważ już wiem, że tak jest).
Shahbaz,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.