Co to jest wydajność próbkowania i w jaki sposób można wykorzystać ważność próbkowania do jej osiągnięcia?

Na przykład tytuł tego artykułu brzmi: „Przykładowy krytyk aktorski z powtórką z doświadczenia”.

Co to jest wydajność próbkowania i w jaki sposób można wykorzystać ważność próbkowania do jej osiągnięcia?

reinforcement-learning statistical-ai importance-sampling

— Gokul NC
źródło

Odpowiedzi:

Algorytm działa na próbce, jeśli może w pełni wykorzystać każdą próbkę. Wyobraź sobie, że uczysz się gry w PONG po raz pierwszy. Jako człowiek zajęłoby ci kilka sekund, aby nauczyć się grać w grę na podstawie bardzo niewielu próbek. To sprawia, że jesteś bardzo „próbny”. Nowoczesne algorytmy RL musiałyby widzieć $100$ tysięcy razy więcej danych niż ty, więc są one względnie nieefektywne.

W przypadku uczenia się polityki, nie wszystkie próbki są użyteczne, że nie są one częścią dystrybucji, który nas interesuje. Próbkowania Znaczenieto technika filtrowania tych próbek. Jego pierwotnym zastosowaniem było zrozumienie jednej dystrybucji, przy jednoczesnym możliwości pobierania próbek z innej, ale powiązanej dystrybucji. W RL często pojawia się to, gdy próbujesz nauczyć się polityki pozagiełdowej. Mianowicie, że twoje próbki są wytwarzane przez niektóre zasady zachowania, ale chcesz poznać zasady docelowe. Dlatego należy zmierzyć, jak ważne / podobne są generowane próbki do próbek, które mogły zostać utworzone przez docelową politykę. Zatem pobiera się próbki z rozkładu ważonego, który faworyzuje te „ważne” próbki. Istnieje jednak wiele metod charakteryzowania tego, co ważne, a ich skuteczność może się różnić w zależności od zastosowania.

Najczęstszym podejściem do tego stylu próbkowania ważności poza polisą jest znalezienie współczynnika prawdopodobieństwa wygenerowania próbki przez politykę docelową. Artykuł na temat związku między próbkowaniem ważności a gradientem wskaźnika prawdopodobieństwa (2010) autorstwa Tanga i Abbeela obejmuje ten temat.

— Jaden Travnik
źródło

Dzięki jeszcze raz. Podstawowe pytanie: ..finding a ratio of how likely a sample is to be generated by the target policyjak to podejmujemy, biorąc pod uwagę, że znamy tylko politykę zachowania? Czy polityka celowa nie jest czymś, co musimy znaleźć?

— Gokul NC,

Możemy to łatwo oszacować, znajdując stosunek docelowej polityki, pi, podejmując to działanie, sprawdzając politykę zachowania, mu. Zatem stosunek wynosi P = pi (s, a) / mu (s, a), gdzie a i s są działaniem wybranym odpowiednio przez mu i stan.

— Jaden Travnik

Moje pytanie brzmiało: skąd otrzymujemy pi (s, a), skoro mamy tylko mu (s, a)? To znaczy, skąd czerpiemy politykę docelową, a naszym celem jest ją znaleźć?

— Gokul NC

Twoja polityka docelowa jest inicjowana losowo, to tylko kwestia jej aktualizacji.

— Jaden Travnik

Przykładowa efektywność oznacza ilość doświadczenia, które agent / algorytm musi wygenerować w środowisku (np. Liczbę działań, jakie podejmuje i liczbę uzyskanych stanów + nagrody, które obserwuje) podczas szkolenia, aby osiągnąć określony poziom wydajności. Intuicyjnie można powiedzieć, że algorytm jest wydajny przykładowo, jeśli potrafi dobrze wykorzystać każde doświadczenie, jakie generuje, i szybko ulepszyć swoją politykę. Algorytm ma niską wydajność próbkowania, jeśli nie nauczy się niczego użytecznego z wielu próbek doświadczenia i nie poprawi się szybko.

Wyjaśnienie ważnego próbkowania w odpowiedzi Jadena wydaje się w większości prawidłowe.

W artykule, w którym pytasz, ważność próbkowania jest jednym ze składników, który umożliwia poprawną kombinację 1) uczenia się z wieloetapowych trajektorii i 2) buforowania powtórzeń. Te dwie rzeczy nie były wcześniej łatwe do połączenia (ponieważ wielostopniowe zwroty bez próbkowania według ważności są poprawne tylko w uczeniu się według zasad, a stare próbki w buforze powtórek zostały wygenerowane przez starą zasadę, co oznacza, że wyciąganie wniosków z nich jest niezgodne z zasadami ). Obie te rzeczy indywidualnie poprawiają wydajność próbki, co oznacza, że jest to również korzystne dla wydajności próbki, jeśli nadal można je jakoś połączyć.

— Dennis Soemers
źródło