Różnica między regresją logistyczną a maszynami wektorów wsparcia?


14

Wiem, że regresja logistyczna znajduje hiperpłaszczyznę, która oddziela próbki szkoleniowe. Wiem również, że maszyny wektorowe wsparcia znajdują hiperpłaszczyznę z maksymalnym marginesem.

Moje pytanie: czy zatem różnica między regresją logistyczną (LR) a maszynami wektorów wsparcia (SVM) polega na tym, że LR znajduje jakąkolwiek hiperpłaszczyznę, która oddziela próbki szkoleniowe, podczas gdy SVM znajduje hiperpłaszczyznę z maksymalnym marginesem? A może się mylę?

Uwaga: pamiętaj, że w LR, gdy wówczas funkcja logistyczna daje 0,5 . Jeśli przyjmiemy 0,5 za próg klasyfikacji, to θ x = 0 jest hiperpłaszczyzną lub granicą decyzji.θx=00.50.5θx=0


Odpowiedzi:


8

Masz rację, jeśli mówisz o twardym SVM, a dwie klasy można rozdzielić liniowo. LR znajduje dowolne rozwiązanie, które dzieli dwie klasy. Hard SVM znajduje „najlepsze” rozwiązanie spośród wszystkich możliwych, które ma maksymalny margines.

W przypadku miękkiego SVM i klas, których nie da się rozdzielić liniowo, nadal masz rację z niewielką modyfikacją. Błąd nie może być zerowy. LR znajduje hiperpłaszczyznę, która odpowiada minimalizacji pewnego błędu. Soft SVM próbuje zminimalizować błąd (kolejny błąd), a jednocześnie wymienia ten błąd z marginesem poprzez parametr regularyzacji.

Jedna różnica między nimi: SVM jest twardym klasyfikatorem, ale LR jest probabilistycznym. SVM jest rzadki. Wybiera wektory wspierające (z próbek treningowych), które mają najbardziej dyskryminującą moc między dwiema klasami. Ponieważ nie utrzymuje innych punktów szkolenia poza tym w czasie testu, nie mamy pojęcia o rozkładzie żadnej z dwóch klas.

Wyjaśniłem, jak psuje się rozwiązanie LR (wykorzystujące IRLS) w przypadku liniowej separowalności dwóch klas i dlaczego przestaje być klasyfikatorem probabilistycznym w takim przypadku: /stats//a/133292/66491


3
Jakie najmniejsze kwadraty optymalizuje regresja logistyczna? LR używa entropii krzyżowej jako straty.
Artem Sobolev

1
tylko dlatego, że regresja logistyczna używa IRLS, co nie oznacza, że ​​to najmniej kwadratów - zmiana wagi w IRLS jest funkcją obecnego oszacowania parametrów, co powoduje, że rzeczywista funkcja jest optymalnie różna od najmniejszych kwadratów.
Glen_b

podsumowując, SVM jest ulepszonym wariantem LR, ponieważ znajduje hiperpłaszczyznę z maksymalnym marginesem, podczas gdy LR znajduje tylko hiperpłaszczyznę (rodzaj mówienia losowego?). Czy zgadzasz się z tym podsumowaniem?
LandonZeKepitelOfGreytBritn
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.