Definicja prawdopodobnie w przybliżeniu poprawnej wynika z Valiant. Ma na celu podanie matematycznie rygorystycznej definicji uczenia maszynowego.
Pozwól mi trochę włóczyć się. Podczas gdy PAC używa terminu „hipoteza”, przeważnie ludzie używają słowa zamiast modelu. Z ukłonem w stronę statystyki preferuję model, ale spróbuję użyć obu. Uczenie maszynowe zaczyna się od pewnych danych i chce się znaleźć hipotezę lub model, który to powie, biorąc pod uwagę dane wejściowe x i zwracają y i lub coś bardzo zbliżonego. Co ważniejsze, biorąc pod uwagę nowe dane ˜ x model obliczy lub przewidzi odpowiednie(xi,yi)xiyix~ .
Naprawdę nie interesuje nas, jak trafna jest hipoteza na danych (szkoleniowych), z tym wyjątkiem, że trudno uwierzyć, że model utworzony przy użyciu niektórych danych nie odzwierciedla dokładnie tego zestawu danych, ale będzie dokładny w każdej przyszłości zestawy danych. Dwa ważne zastrzeżenia polegają na tym, że nie można przewidzieć nowych danych ze 100% dokładnością, a także istnieje możliwość, że w przykładach danych, które zaobserwowano, brakuje czegoś ważnego. Przykładem zabawki jest to, że gdybym podał wam „dane” 1,2,3,4, „przewidziałby”, że 5 będzie kolejnym numerem. Jeśli przetestowałeś to, pytając ludzi, jaki jest następny numer w sekwencji, większość ludzi powiedziałaby 5. Ktośmógłbyy~
powiedzmy 1 000 000. Gdyby podano sekwencję 1, 2, 3, ... 999,999, jeden byłby pewien, że następna liczba to 1 000 000. Jednak następną liczbą może być 999,999,5, a nawet 5. Chodzi o to, że im więcej danych widzisz, tym bardziej pewne jest, że udało się stworzyć dokładny model, ale nigdy nie można być absolutnie pewnym.
Definicja prawdopodobnie w przybliżeniu poprawnej daje matematycznie precyzyjną wersję tego pomysłu. Biorąc pod uwagę dane z wyjściem y i oraz klasą modeli f θ, które stanowią hipotezy, można zadać 2 pytania. Czy możemy wykorzystać dane do znalezienia konkretnej hipotezy f Θxi,1≤i≤myifθfΘp>1−δfΘϵ(δ,ϵ)(δ,ϵ) i jak złożona jest dana klasa hipotez.
Hfθ(ϵ,δ)0<ϵ,δ,<.5fΘx~,y~Err(fΘ(x~),y~)<ϵp>1−δm=m(δ,ϵ,H)(fΘ(x~)−y~)2
(δ,ϵ)