Głównym problemem związanym z uczeniem TD i DP jest to, że ich aktualizacje krokowe są tendencyjne w stosunku do początkowych warunków parametrów uczenia. Proces ładowania początkowego zazwyczaj aktualizuje funkcję lub wyszukiwanie Q (s, a) na wartości następczej Q (s ', a') przy użyciu tego, co obecne oszacowania znajdują się w tym drugim. Najwyraźniej na samym początku nauki te szacunki nie zawierają żadnych informacji o prawdziwych nagrodach ani przejściach stanu.
Jeśli nauka działa zgodnie z przeznaczeniem, błąd systematyczny zmniejszy się asymptotycznie w wyniku wielu iteracji. Jednak odchylenie może powodować poważne problemy, szczególnie w przypadku metod niezgodnych z polityką (np. Q Learning) i przy użyciu aproksymatorów funkcji. Ta kombinacja prawdopodobnie nie zbiegnie się tak bardzo, że nazywa się ją śmiertelną triadą w Sutton i Barto .
Metody kontroli Monte Carlo nie cierpią z powodu tego błędu, ponieważ każda aktualizacja jest wykonywana przy użyciu prawdziwej próbki tego, jakie powinny być Q (s, a). Jednak metody Monte Carlo mogą wykazywać dużą zmienność, co oznacza, że potrzeba więcej próbek, aby osiągnąć ten sam stopień uczenia się niż TD.
W praktyce uczenie się TD wydaje się uczyć bardziej efektywnie, jeśli można pokonać problemy związane ze śmiertelną triadą . Ostatnie wyniki, w których wykorzystano powtórkę doświadczeń i „zamrożone” kopie estymatorów, umożliwiają obejście problemów rozwiązujących problemy - np. Tak zbudowano ucznia DQN dla gier Atari.
Istnieje również środek ziemi między TD i Monte Carlo. Możliwe jest zbudowanie uogólnionej metody, która łączy trajektorie o różnych długościach - od jednoetapowego niszczyciela czołgu do kompletnych odcinków w Monte Carlo - i łączy je. Najczęstszym wariantem tego jest uczenie się TD ( ), gdzie jest parametrem od (efektywne uczenie się w jednym kroku) do (efektywne uczenie się w Monte Carlo, ale z przyjemną funkcją, którą można stosować w trybie ciągłym problemy). Zazwyczaj wartość od do jest najskuteczniejszym agentem edukacyjnym - chociaż, jak wiele hiperparametrów, najlepsza wartość do zastosowania zależy od problemu.λλ0101
Jeśli używasz metody opartej na wartościach (w przeciwieństwie do metody opartej na regułach), wówczas uczenie się TD jest ogólnie stosowane bardziej w praktyce, lub metoda kombinacji TD / MC, taka jak TD (λ), może być jeszcze lepsza.
Pod względem „praktycznej przewagi” dla MC? Uczenie się w Monte Carlo jest koncepcyjnie proste, niezawodne i łatwe do wdrożenia, choć często wolniejsze niż TD. Zasadniczo nie używałbym tego do uczenia się silnika kontrolera (chyba że spieszy mi się wdrożenie czegoś dla prostego środowiska), ale poważnie rozważę to do oceny polityki w celu porównania na przykład wielu agentów - to dlatego, że jest to obiektywna miara, która jest ważna przy testowaniu.