Obecnie uczę się, jak dokonywać klasyfikacji, a konkretnie przyglądam się trzem metodom: obsłudze maszyn wektorowych, sieci neuronowych i regresji logistycznej. Próbuję zrozumieć, dlaczego regresja logistyczna miałaby kiedykolwiek lepszą wydajność niż pozostałe dwa.
Z mojego zrozumienia regresji logistycznej, pomysł polega na dopasowaniu funkcji logistycznej do całych danych. Więc jeśli moje dane są binarne, wszystkie moje dane z etykietą 0 powinny być zamapowane na wartość 0 (lub blisko niej), a wszystkie moje dane o wartości 1 powinny być zamapowane na wartość 1 (lub blisko niej). Ponieważ funkcja logistyczna jest ciągła i płynna, wykonanie tej regresji wymaga, aby wszystkie moje dane pasowały do krzywej; nie ma większego znaczenia dla punktów danych w pobliżu granicy decyzji, a wszystkie punkty danych przyczyniają się do straty o różne kwoty.
Jednak w przypadku maszyn wektorów nośnych i sieci neuronowych ważne są tylko te punkty danych w pobliżu granicy decyzji; tak długo, jak punkt danych pozostaje po tej samej stronie granicy decyzji, spowoduje tę samą stratę.
Dlatego dlaczego regresja logistyczna miałaby kiedykolwiek przewyższać obsługę maszyn wektorowych lub sieci neuronowych, skoro „marnuje zasoby” na próby dopasowania krzywej do wielu nieistotnych (łatwych do sklasyfikowania) danych, zamiast koncentrowania się tylko na trudnych danych wokół decyzji granica?