Dziękuję Aryehowi za zwrócenie mojej uwagi na to pytanie.
Jak wspomnieli inni, odpowiedź na (1) brzmi „ Tak” , a prosta metoda minimalizacji ryzyka empirycznego w C pozwala uzyskać złożoność próbki O((d/ε)log(1/ε)) (patrz Vapnik i Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler i Warmuth, 1989).
Jeśli chodzi o (2), w rzeczywistości wiadomo, że istnieją przestrzenie C
których żaden właściwy algorytm uczenia się nie osiąga lepszej złożoności próbki niż Ω((d/ε)log(1/ε)) , a zatem prawidłowe uczenie się nie może osiągnąć optymalnego O(d/ε) złożoność próby. O ile mi wiadomo, fakt ten nigdy nie został opublikowany, ale jest zakorzeniony w pokrewnym argumencie Daniely'ego i Shaleva-Shwartza (COLT 2014) (pierwotnie sformułowanym dla innego, ale pokrewnego pytania w uczeniu się wieloklasowym).
Rozważmy Prosty przykład d=1 , i umieścić w przestrzeni X jako {1,2,...,1/ε} , a C to singletony fz(x):=I[x=z],z∈X : to znaczy, każdy klasyfikator w C klasyfikuje dokładnie jeden punkt od X jako 1 a pozostałe jako 0. Na dolnej granicy, należy docelową funkcję jako losowej jednoelementowy fx∗ , gdzie x∗∼Uniform(X) i P krańcowa rozkład X jest jednolity o X∖{x∗} . Teraz uczeń nigdy nie widzi żadnych przykładów oznaczonych jako 1 , ale musi wybrać punkt z aby odgadnąć, że ma oznaczenie 1 (co ważne, funkcja `` wszystko zero '' nie znajduje się w CTak dowolny właściwy uczący musi że niektórzy z ), i dopiero widoczne każdym punkcie X∖{x∗} ma co najmniej 1/2 możliwość zgadywania źle (czyli tylnej prawdopodobieństwo ich fz o z≠x∗ co najmniej 1/2 ). Argument kolektora kuponów sugeruje, że wymagałby Ω((1/ε)log(1/ε))próbki, aby zobaczyć każdy punkt w X∖{x∗} . Dowodzi to dolnej granicy Ω((1/ε)log(1/ε)) dla wszystkich właściwych uczniów.
Dla ogólnej d>1 bierzemy X jako {1,2,...,d/(4ε)} , weź C jako klasyfikatory IA dla zbiorów A⊂X o rozmiarze dokładnie d , wybierz losowo funkcję docelową z C i ponownie przyjmij P jako jednolity tylko w punktach, które funkcja docelowa klasyfikuje 0 ( więc uczący się nigdy nie widzi punktu oznaczonego jako 1). Zatem uogólnienie argumentu kupca-kolektora sugeruje, że potrzebujemy próbek Ω((d/ε)log(1/ε)) aby zobaczyć przynajmniej |X|−2d różne punkty z X i bez obejrzeniu tego wiele różnych punktach dowolny właściwy uczący przynajmniej 1/3 szanse na uzyskanie większych niż d/4 jego przypuszczalne A do d punkty niesłusznie wybrany hipotezy hA, co oznacza, że jego poziom błędu jest większy niż ε . Zatem w tym przypadku nie ma odpowiedniego ucznia o złożoności próbki mniejszej niż Ω((d/ε)log(1/ε)) , co oznacza, że żaden uczący się nie osiąga optymalnej złożoności próbki O(d/ε) .
Zauważ, że wynik jest dość specyficzny dla skonstruowanej przestrzeni CIstnieją przestrzenie C których właściwi uczniowie mogą osiągnąć optymalną złożoność próbki O(d/ε) , a nawet dokładne pełne wyrażenie O((d/ε)+(1/ε)log(1/δ)) z ( Hanneke, 2016a). Niektóre górne i dolne granice dla ogólnych uczniów ERM zostały opracowane w (Hanneke, 2016b), skwantyfikowane pod względem właściwości przestrzeni C, a także omawianie bardziej wyspecjalizowanych przypadków, w których konkretni właściwi uczniowie mogą czasami osiągnąć optymalną złożoność próby.
Bibliografia:
Vapnik and Chervonenkis (1974). Teoria rozpoznawania wzorców. Nauka, Moskwa, 1974.
Blumer, Ehrenfeucht, Haussler i Warmuth (1989). Uczenie się i wymiar Vapnika-Chervonenkisa. Journal of the Association for Computing Machinery, 36 (4): 929–965.
Daniely i Shalev-Shwartz (2014). Optymalni uczniowie dla problemów wieloklasowych. W materiałach z 27. Konferencji na temat teorii uczenia się.
Hanneke (2016a). Optymalna złożoność próby uczenia się PAC. Journal of Machine Learning Research, t. 17 (38), s. 1–15.
Hanneke (2016b). Udoskonalone granice błędów dla kilku algorytmów uczenia się. Journal of Machine Learning Research, t. 17 (135), s. 1–55.