To, co chcesz zrobić, nie istnieje, ponieważ z braku lepszego słowa jest matematycznie wadliwe.
Ale najpierw podkreślę, dlaczego uważam, że przesłanki twojego pytania są solidne. Spróbuję następnie wyjaśnić, dlaczego uważam, że wyciągnięte z nich wnioski opierają się na niezrozumieniu modelu logistycznego, a na koniec zasugeruję alternatywne podejście.
Oznaczę twojenobserwacji (pogrubione litery oznaczają wektory), które leżą wprzestrzenipwymiarowej (pierwszy wpis x{ ( xxja, yja) }ni = 1np jest 1)p<n, Y i ∈[0,1], a f( xxxjap<nyi∈[0,1] to monotonna funkcja xf(xxi)=f(xx′iββ) , powiedz jakkrzywa logistyczna,aby naprawić pomysły. Dla wygody założę, że n jestwystarczającoduże w porównaniu do p .xx′iββnp
Masz rację, że jeśli zamierzasz użyć TVD jako kryterium oceny dopasowanego modelu, uzasadnione jest oczekiwanie, że twoje dopasowanie zoptymalizuje to samo kryterium wśród wszystkich możliwych kandydatów na twoich danych. W związku z tym
ββ∗=argminββ∈Rp||yy−f(xx′iββ)||1
Problemem jest błąd :
i jeśli(po prostu chcemy, aby nasz model był asymptotyczniebezstronny), wtedymusibyćheteroskedastyczny. Wynika to z tego, żemoże przyjmować tylko dwie wartości, 0 i 1. Dlatego, biorąc pod uwagę
,może również przyjmować tylko dwie wartości:gdy, co występuje z prawdopodobieństwemigdy, co występuje z prawdopodobieństwem.ϵi=yi−f(xx′iββ)ϵ i y i xE(ϵϵ)=0ϵi yiϵ i 1-f( xxxiϵiy i = 1 f ( x1−f(xx′iββ)yi=1- f ( xf(xx′iββ)y i = 1 1 - f ( x−f(xx′iββ)yi=11−f(xx′iββ)
Te rozważania łącznie oznaczają, że:
var(ϵϵ)=E(ϵϵ2)=(1−f(xx′ββ))2f(xx′ββ)+(−f(xx′ββ))2(1−f(xx′ββ))=(1−f(xx′ββ))f(xx′ββ)=E(yy|xx)E(1−yy|xx)
stąd nie jest stały, ale ma wklęsły kształt paraboli i jest maksymalizowany, gdy jest takie, że .var(ϵϵ)xxE(y|xx)≈.5
Ta nieodłączna heteroskedastyczność reszt ma konsekwencje . Oznacza to między innymi, że minimalizując utraty , masz asymptotycznie część swojej próbki. Oznacza to, że dopasowany ogóle nie pasuje do danych, ale tylko jego część skupiona wokół miejsc, w których jest taki, że . To są najmniej pouczające punkty danych w twojej próbie : odpowiadają one obserwacjom, dla których składnik hałasu jest największy. Dlatego twoje dopasowanie jest przyciągane do , np. Jest nieistotne.l1ββ∗xxE(yy|xx)≈.5ββ∗=ββ:f(xx′ββ)≈.5
Jednym z rozwiązań, jak wynika z powyższego opisu, jest zniesienie wymogu bezstronności. Popularnym sposobem na odchylenie estymatora (z dołączoną interpretacją bayesowską) jest włączenie terminu skurczu. Jeśli przeskalujemy odpowiedź:
y+i=2(yi−.5),1≤i≤n
i dla celów obliczeniowych zastąp inną funkcją monotoniczną --it będzie wygodne kontynuacja oznacza pierwszy komponent wektora parametru jak , a pozostałe te - i to określenie kurczenie (na przykład jedna z postaci ), wynikający z tego problem optymalizacji staje się:f(xx′ββ)g(xx,[c,γγ])=xx′[c,γγ]cp−1γγ||γγ||2
[c∗,γγ∗]=argmin[[c,γγ]∈Rp∑i=1nmax(0,1−y+ixx′i[[c,γγ])+12||γγ||2
Zwróć uwagę, że w tym nowym (również wypukłym) problemie optymalizacji kara za poprawnie sklasyfikowane obserwacje wynosi 0 i rośnie liniowo wraz z dla sklasyfikowanej - jak w utrata. Rozwiązaniem drugiego problemu optymalizacji są znane współczynniki liniowe svm (z idealną separacją). W przeciwieństwie do , sensowne jest nauczenie się tych z danych z karą typu TVD („typ” z powodu określenia błędu) . W związku z tym to rozwiązanie jest szeroko wdrażane. Zobacz na przykład pakiet R LiblineaR .1 1 [ c ∗ , γxx′[[c,γ]l1 β[c∗,γγ∗] [ c ∗ , γββ∗[c∗,γγ∗]