Co to znaczy „współdzielić parametry między funkcjami i klasami”


Odpowiedzi:


22

Spróbuję odpowiedzieć na to pytanie za pomocą regresji logistycznej , jednego z najprostszych klasyfikatorów liniowych.

Najprostszym przypadkiem regresji logistycznej jest to, że mamy zadanie klasyfikacji binarnej ( i tylko jedną cechę wejściową ( ). W takim przypadku wynikiem regresji logistycznej byłoby:x Ry{0,1})xR

y^=σ(wx+b)
gdzie w i bskalarami . Dane wyjściowe modelu y^[0,1] odpowiadają prawdopodobieństwu, że x będzie klasy 1 .

Spróbujemy rozbić wyrażenie „klasyfikatory liniowe nie dzielą parametrów między cechami i klasami” na dwie części. Przebadamy przypadki wielu funkcji i wielu klas oddzielnie, aby sprawdzić, czy regresja logistyczna udostępnia parametry dla tych zadań:

Czy klasyfikatory liniowe dzielą parametry między cechami?

W tym przypadku dla każdego przykładu y jest skalarem, który przyjmuje wartości binarne (jak poprzednio), podczas gdy x jest wektorem długości N (gdzie N jest liczbą funkcji). W tym przypadku dane wyjściowe są liniową kombinacją cech wejściowych (tj. Ważonej sumy tych cech plus odchylenia).

y^=σ(iN(wixi)+b)orσ(wx+b)
, gdzie i są wektorami o długości . Produkt tworzy skalar. Jak widać z góry, dla każdej funkcji wejściowej istnieje osobna waga i te wagi są niezależnie od siebie niezależne . Z tego możemy wywnioskować, że nie ma podziału parametrów między funkcjami .xwNxw wixi

Czy klasyfikatory liniowe dzielą parametry między klasami?

W tym przypadku jest skalarem, jednak jest wektorem o długości (gdzie jest liczbą klas). Aby temu zaradzić, regresja logistyczna generuje osobne dane wyjściowe dla każdej z klasKażde wyjście jest skalarem i odpowiada prawdopodobieństwu przynależności do klasy .xyMMyjMyj[0,1]xj

y^=wx+b,wherey^=y^1,y^2,...,yM

Najłatwiej to wymyślić jako proste niezależne regresje logistyczne, z których każda ma wynik:M

y^j=σ(wjx+bj)

Z powyższego wynika, że między poszczególnymi klasami nie są dzielone ciężary .

wiele funkcji i wiele klas :

Łącząc dwa powyższe przypadki, możemy w końcu osiągnąć najbardziej ogólny przypadek wielu funkcji i wielu klas:

y^=σ(Wx+b)
gdzie jest wektorem o rozmiarze , jest wektorem o rozmiarze , jest wektorem o rozmiarze a jest macierzą o rozmiarze .y^MxNbMW(N×M)

W każdym razie klasyfikatory liniowe nie dzielą żadnych parametrów między cechami lub klasami .

Aby odpowiedzieć na twoje drugie pytanie, klasyfikatory liniowe mają podstawowe założenie, że cechy muszą być niezależne , jednak nie tak zamierzał autor artykułu.


1
Ładne wyjaśnienie. :)
joydeep bhattacharjee
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.