Uczenie się agnostyczne nad dowolnymi rozkładami


11

Niech będzie rozkładem na pary łańcuchów bitów / etykiet { 0 , 1 } d × { 0 , 1 } i niech C będzie zbiorem funkcji o wartościach logicznych f : { 0 , 1 } d{ 0 , 1 } . Dla każdej funkcji f C , niech: e r r ( f , D ) = Pr ( x , y )D{0,1}d×{0,1}Cf:{0,1}d{0,1}fC i niech: OPT(C,D)= min f C err(f,D) Powiedz, że algorytmAagnostycznie uczy sięCna dowolnym rozkładzie, jeśli dla dowolnegoDmoże ona z prawdopodobieństwem2/3znajduje się funkcjafw taki sposób,eRR(f,

err(f,D)=Pr(x,y)D[f(x)y]
OPT(C,D)=minfC err(f,D)
ACD2/3f , biorąc pod uwagę czas i liczbę próbek z D, które są ograniczone wielomianem id oraz 1 / ϵ .err(f,D)OPT(C,D)+ϵDd1/ϵ

Pytanie: Jakie klasy funkcji są znane z agnostycznego uczenia się w dowolnych rozkładach?C

Żadna klasa nie jest zbyt prosta! Wiem, że nawet monotoniczne sprzężenia nie są znane z agnostycznego uczenia się w dowolnych rozkładach, więc szukam po prostu nietrywialnych klas funkcji.


warto zwrócić uwagę na niewtajemniczonych, że uczenie się agnostyczne koncentruje się na przypadku, gdy OPT (C, D)> 0 (tj. masz niewłaściwą klasę hipotez
Suresh Venkat,

Słuszna uwaga. W szczególnym przypadku, gdy OPT (C, D) = 0, jest to nauka PAC i jest znacznie łatwiejsza. W przypadku uczenia agnostycznego gwarancja musi obowiązywać niezależnie od tego, jaka jest opcja OPT (C, D).
Aaron Roth,

Istnieje również przypadek „PAC z szumem klasyfikacyjnym”, w którym OPT (C, D)> 0, i mimo że masz odpowiednią klasę hipotez (możliwe do wykonania ustawienie), występuje pewien błąd, ponieważ etykiety są losowo odwracane z powodu hałasu ... I chciałbym, aby nazwy różnych ustawień były mniej mylące.
Lev Reyzin

to brzmi jak uczenie się agnostyczne z górną granicą OPT (C, D)
Suresh Venkat

Niezupełnie, ponieważ hałas nie może być arbitralny w klasyfikacyjnym modelu hałasu. Tak więc, jeśli istniał jakiś przeciwny wzorzec hałasu, który utrudniał uczenie się (lub znajdowanie empirycznego minimalizatora ryzyka) w modelu agnostycznym, może to nie występować często w modelu szumu klasyfikacyjnego (tj. Wpaść w parametr delta PAC).
Lev Reyzin

Odpowiedzi:


9

Jeśli żadna klasa nie jest zbyt prosta, oto niektóre agnostycznie możliwe do nauczenia klasy PAC. W odpowiedzi na komentarze przekreślono klasy o wielomianowo wielu hipotezach:

  • drzewa decyzyjne o stałej głębokości (i inne klasy mające tylko wiele hipotez)
  • R2O(n2)
  • związki interwałów (programowanie dynamiczne)
  • log(k)loglog(k)n
  • inne klasy hipotez w warunkach niskiego wymiaru.

Prawie wszystko inne jest trudne do (przynajmniej właściwie) agnostycznie nauki PAC.

Samouczek Adama Kalai na temat nauki agnostycznej może Cię również zainteresować.


Dzięki. Tak więc drzewa decyzyjne o stałej głębokości, 2-wymiarowe hiperpłaszczyzny (zakładam, że inne ustawienia niskiego wymiaru, o których mówisz) należą do kategorii posiadającej tylko wielomianowo wiele funkcji, których można się nauczyć przez wyczerpanie. Parzystości w logach (k) loglog (k) bitach i związkach przedziałów są interesujące, ponieważ zawierają one wielobiegunowo wiele funkcji. Czy są tacy inni?
Aaron Roth,

Racja, chociaż w nieskończenie wiele jest hiperpłaszczyzn, po prostu O (n ^ 2) inaczej klasyfikuje punkty danych. Nie znam żadnych innych interesujących zajęć z góry mojej głowy, ale jeśli wymyślę / znajdę jakieś, zredaguję moją odpowiedź.
Lew Reyzin

więc chcesz mieć nieograniczone klasy wymiarów VC?
Suresh Venkat

nieograniczony wymiar VC z pewnością byłby interesujący, ale duże, skończone (dla ustalonych d) klasy są już niezwykle interesujące (i wydają się rzadkie)
Aaron Roth

1
@LevReyzin Link do wykładów Kalai nie działa. Czy mógłbyś to naprawić? Szukałem w sieci, ale nie mogłem tego znaleźć.
Anirbit
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.