Zastrzeżenie: Jestem biologiem, więc przepraszam za (być może) podstawowe pytanie sformułowane w tak surowych terminach.
Nie jestem pewien, czy powinienem zadać to pytanie tutaj, czy na DS / SC, ale CS jest największym z trzech, więc proszę. (Po tym, jak opublikowałem, przyszło mi do głowy, że Cross-Validated może być lepszym miejscem na to, ale niestety).
Wyobraź sobie, że jest agent, który podejmuje decyzje binarne. Oraz środowisko, które za każdą decyzję agenta („próby”) nagradza agenta lub nie. Kryteria nagradzania decyzji agenta nie są proste. Ogólnie kryteria są losowe, ale mają ograniczenia, na przykład środowisko nigdy nie nagradza więcej niż 3 razy za tę samą decyzję i nigdy nie zmienia naprzemiennie decyzji nagradzanej więcej niż 4 razy z rzędu.
Sekwencja kryteriów może wtedy wyglądać mniej więcej tak
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
ale nigdy
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
ponieważ kryterium nagrody nie może się powtórzyć więcej niż 3 razy.
W tych warunkach dość łatwo jest sformułować strategię, którą powinien podjąć idealny obserwator, aby zmaksymalizować nagrodę. Coś w stylu
- decyduj losowo
- jeśli wykryjesz te kryteria powtórzone 3 razy - zdecyduj przeciwnie niż ostatnie kryterium
- jeśli wykryjesz te kryteria na przemian 4 razy, zdecyduj zgodnie z ostatnim kryterium
Teraz trudna część. Teraz kryterium dla każdej próby zależy nie tylko od historii poprzednich kryteriów, ale także od historii decyzji agenta, np. Jeśli agent naprzemiennie wykonuje więcej niż 8 z ostatnich 10 prób, nagradzaj tę samą decyzję, którą agent podjął ostatnim razem (ponieważ czy zniechęcić agenta do naprzemiennego zmieniania) i jeśli agent powtórzył tę samą decyzję w więcej niż 8 z ostatnich 10 prób, tj. jest stronniczy, należy zastosować kryterium przeciwne do uprzedzenia. Priorytet historii kryteriów nad historią decyzji jest z góry określony, więc nigdy nie ma dwuznaczności.
Sekwencje decyzji (d) i kryteriów (c) mogą teraz wyglądać następująco
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
Nie widzę żadnego prostego sposobu wymyślenia strategii maksymalizacji dla agenta. Ale jestem pewien, że musi być jeden i jakiś sprytny algorytm uczenia maszynowego powinien być w stanie go zidentyfikować.
Moje pytanie nie dotyczy raczej tego, jak rozwiązać ten problem (chociaż byłbym szczęśliwy, jeśli zaproponujesz rozwiązanie), ale bardziej, jak nazywane są tego rodzaju problemy? Gdzie mogę o tym przeczytać? Czy istnieje jakieś abstrakcyjne rozwiązanie, czy może pomóc tylko symulacja? Ogólnie, jak mogę, jako biolog, podejść do tego rodzaju problemu?