Interesują mnie teoretyczne wyniki zdolności uogólniających maszyn wektorów podporowych, np. Granice prawdopodobieństwa błędu klasyfikacji i wymiaru Vapnika-Chervonenkisa (VC) tych maszyn. Jednak czytając literaturę, miałem wrażenie, że niektóre podobne powtarzające się wyniki różnią się nieznacznie w zależności od autora, szczególnie jeśli chodzi o warunki techniczne wymagane dla danego obowiązku.
W dalszej części przypomnę strukturę problemu SVM i stan 3 głównych wyników uogólnienia, które wielokrotnie odnajdywałem w takiej czy innej formie podam 3 główne odniesienia w całej prezentacji.
Ustawienie problemu :
Załóżmy, że mamy próbkę danych niezależnych i identycznie rozmieszczonych (iid) par gdzie dla wszystkich , i . Konstruujemy maszynę wektorów nośnych (SVM), która maksymalizuje minimalny margines między hiperpłaszczyzną oddzielającą zdefiniowaną przez , i , i najbliższy punkt spośród , aby oddzielić dwie klasy zdefiniowane przez i . Pozwalamy, aby SVM przyznał pewne błędy poprzez miękki margines, wprowadzając zmienne luzu ale dla uproszczenia notacji ignorujemy możliwość jądra. Parametry rozwiązania i są uzyskiwane przez rozwiązanie następującego wypukłego programu optymalizacji kwadratowej:
Interesuje nas możliwość uogólnienia tej maszyny.
Wymiar Vapnik-Chervonenkis :
Pierwszy wynik wynika z (Vapnik, 2000), w którym ogranicza wymiar VC oddzielającej hiperpłaszczyzny, twierdzenie 5.1. Niech , mamy:
Ten wynik można ponownie znaleźć w (Burges, 1998), twierdzenie 6. Wydaje się jednak, że twierdzenie Burgesa jest bardziej restrykcyjne niż ten sam wynik Vapnika, ponieważ musi on zdefiniować specjalną kategorię klasyfikatorów, znaną jako klasyfikatory tolerujące odstępy do którego należy SVM , aby stwierdzić twierdzenie.
Ograniczenia prawdopodobieństwa błędów :
W (Vapnik, 2000) twierdzenie 5.2 na stronie 139 określa następujące ograniczenie możliwości generalizacji SVM:
gdzie to liczba wektorów pomocniczych SVM. Wyniki te wydają się znaleźć ponownie odpowiednio w (Burges, 1998), równaniach (86) i (93). Ale znowu Burges wydaje się różnić od Vapnika, ponieważ oddziela komponenty w ramach powyższej funkcji minimum w różnych twierdzeniach, z różnymi warunkami.
Kolejny wynik pojawiający się w (Vapnik, 2000), s. 133, jest następujący. Zakładając ponownie, że dla wszystkich , i pozwalając i , definiujemy jako równe:
Definiujemy również jako liczbę błędnie sklasyfikowanych przykładów szkolenia przez SVM. Następnie z prawdopodobieństwem możemy stwierdzić, że prawdopodobieństwo, że przykładowy test nie zostanie poprawnie rozdzielony przez hiperpłaszczyznę -margin tj. SVM z marginesem ma granicę:
Jednak w (Hastie, Tibshirani i Friedman, 2009), s. 438 znaleziono bardzo podobny wynik:
Wniosek :
Wydaje mi się, że między tymi wynikami istnieje pewien stopień konfliktu. Z drugiej strony dwa z tych odniesień, choć kanoniczne w literaturze SVM, zaczynają być nieco stare (1998 i 2000), szczególnie jeśli weźmiemy pod uwagę, że badania nad algorytmem SVM rozpoczęły się w połowie lat dziewięćdziesiątych.
Moje pytania to:
- Czy wyniki te są nadal aktualne, czy też okazały się błędne?
- Czy od tego czasu uzyskano ściślejsze granice przy stosunkowo luźnych warunkach? Jeśli tak, to kto i gdzie mogę je znaleźć?
- Wreszcie, czy jest jakiś materiał referencyjny, który syntetyzuje główne wyniki uogólnienia dotyczące SVM?
Referencje :
Vapnik, VN (1998). Statystyczna teoria uczenia się , 1. wydanie, John Wiley & Sons
Vapnik, VN (2000). Natura statystycznej teorii uczenia się , wydanie drugie, Springer