Problemy z klasyfikacją tekstu mają zazwyczaj dość duże wymiary (wiele cech), a problemy z dużymi wymiarami mogą być liniowo rozdzielalne (ponieważ możesz oddzielić dowolne punkty d + 1 w przestrzeni d-wymiarowej za pomocą klasyfikatora liniowego, niezależnie od tego, w jaki sposób punkty są oznaczone). Tak więc klasyfikatory liniowe, czy regresja grzbietu, czy SVM z liniowym jądrem, prawdopodobnie dobrze sobie radzą. W obu przypadkach parametr grzbietu lub C dla SVM (jak tdc wspomina +1) kontroluje złożoność klasyfikatora i pomaga uniknąć nadmiernego dopasowania poprzez oddzielenie wzorów każdej klasy dużymi marginesami (tj. Powierzchnia decyzyjna przechodzi w dół środek luki między dwiema kolekcjami punktów). Jednak, aby uzyskać dobrą wydajność, parametry grzbietu / regularyzacji muszą być odpowiednio dostrojone (używam pomijalnej weryfikacji krzyżowej, ponieważ jest tanie).
Jednak powodem, dla którego regresja kalenicy działa dobrze, jest to, że metody nieliniowe są zbyt silne i trudno uniknąć nadmiernego dopasowania. Może istnieć nieliniowy klasyfikator, który zapewnia lepszą wydajność uogólnienia niż najlepszy model liniowy, ale zbyt trudno jest oszacować te parametry przy użyciu skończonej próbki danych treningowych, które mamy. W praktyce, im prostszy model, tym mniej problemów mamy przy szacowaniu parametrów, więc jest mniejsza tendencja do nadmiernego dopasowania, więc uzyskujemy lepsze wyniki w praktyce.
Innym problemem jest wybór funkcji, regresja kalenicy pozwala uniknąć nadmiernego dopasowania poprzez regulację ciężarów, aby były małe, a wybór modelu jest prosty, ponieważ wystarczy wybrać wartość tylko jednego parametru regresji. Jeśli spróbujesz uniknąć nadmiernego dopasowania, wybierając optymalny zestaw funkcji, wybór modelu staje się trudny, ponieważ dla każdej operacji występuje pewien stopień swobody (rodzaj), co pozwala na przeregulowanie kryterium wyboru funkcji, a Ty skończy się zestawem funkcji, które są optymalne dla tej konkretnej próbki danych, ale dają słabą wydajność generalizacji. Dlatego niewykonywanie wyboru funkcji i stosowanie regularyzacji często zapewnia lepszą wydajność predykcyjną.
Często używam Bagging (tworzę komitet modeli wytrenowanych na próbkach z zestawu treningowego) z modelami regresji grzbietowej, co często daje poprawę wydajności, a ponieważ wszystkie modele są liniowe, możesz je połączyć, aby utworzyć pojedynczy model liniowy , więc nie działa żadna obniżona wydajność.