Tło:
Używam aproksymacji wartości Q sieci neuronowej w moim zadaniu uczenia się zbrojenia. Podejście jest dokładnie takie samo, jak opisane w tym pytaniu , jednak samo pytanie jest inne.
W tym podejściu liczba wyników jest liczbą działań, które możemy podjąć. W prostych słowach algorytm jest następujący: wykonaj akcję A, zbadaj nagrodę, poproś NN, aby przewidział wartości Q dla wszystkich możliwych akcji, wybierz maksymalną wartość Q, oblicz Q dla określonej akcji A jako R + max(new_state_Q)
. Dopasuj model do przewidywanych wartości Q, zastępując tylko jedną z nich R + max(new_state_Q)
.
Pytanie: Jak skuteczne jest to podejście, jeśli liczba wyników jest duża?
Próba: Powiedzmy, że możemy wykonać 10 działań. Na każdym etapie prosimy model, aby przewidział 10 wartości, we wczesnym wieku modelu ta prognoza jest całkowitym bałaganem. Następnie modyfikujemy 1 wartość wyjściową i dopasowujemy model do tych wartości.
Mam dwie przeciwne myśli na temat tego, jak dobre jest to podejście i nie mogę zdecydować, która z nich jest właściwa:
- Z jednego punktu widzenia trenujemy każdy neuron 9 razy na losowych danych i tylko raz na danych zbliżonych do rzeczywistej wartości. Jeśli NN przewidział 5 dla działania A w stanie S, ale rzeczywista wartość wynosi -100, dopasujemy NN 9 razy o wartości 5, a następnie raz o wartości -100. Brzmi szalenie.
- Z innego punktu widzenia uczenie się sieci neuronowej jest realizowane jako wsteczna propagacja błędu , więc kiedy model przewidział 5 i uczymy go na 5, nie nauczy się niczego nowego, ponieważ błąd wynosi 0. Ciężary nie są dotykane . I tylko wtedy, gdy obliczymy -100 i dopasujemy ją do modelu, przeprowadzi ponowne obliczenie wagi.
Która opcja jest odpowiednia? Może jest coś jeszcze, czego nie biorę pod uwagę?
AKTUALIZACJA: Przez „jak efektywny” mam na myśli porównanie z podejściem z jedną prognozowaną nagrodą za wynik. Oczywiście akcja będzie częścią wkładu w tym przypadku. Więc podejście nr 1 przewiduje prognozy dla wszystkich działań w oparciu o pewien stan, podejście nr 2 przewiduje prognozy dla konkretnych działań podjętych w danym stanie.