Spróbuję odpowiedzieć na to pytanie za pomocą regresji logistycznej , jednego z najprostszych klasyfikatorów liniowych.
Najprostszym przypadkiem regresji logistycznej jest to, że mamy zadanie klasyfikacji binarnej ( i tylko jedną cechę wejściową ( ). W takim przypadku wynikiem regresji logistycznej byłoby:x ∈ Ry∈{0,1})x∈R
y^=σ(w⋅x+b)
gdzie
w i
b są
skalarami . Dane wyjściowe modelu
y^∈[0,1] odpowiadają prawdopodobieństwu, że
x będzie klasy
1 .
Spróbujemy rozbić wyrażenie „klasyfikatory liniowe nie dzielą parametrów między cechami i klasami” na dwie części. Przebadamy przypadki wielu funkcji i wielu klas oddzielnie, aby sprawdzić, czy regresja logistyczna udostępnia parametry dla tych zadań:
Czy klasyfikatory liniowe dzielą parametry między cechami?
W tym przypadku dla każdego przykładu y jest skalarem, który przyjmuje wartości binarne (jak poprzednio), podczas gdy x jest wektorem długości N (gdzie N jest liczbą funkcji). W tym przypadku dane wyjściowe są liniową kombinacją cech wejściowych (tj. Ważonej sumy tych cech plus odchylenia).
y^=σ(∑iN(wi⋅xi)+b)orσ(w⋅x+b)
, gdzie i są wektorami o długości . Produkt tworzy skalar. Jak widać z góry, dla każdej funkcji wejściowej istnieje
osobna waga i te wagi są
niezależnie od
siebie niezależne . Z tego możemy wywnioskować, że nie
ma podziału parametrów między funkcjami .
xwNx⋅w wixi
Czy klasyfikatory liniowe dzielą parametry między klasami?
W tym przypadku jest skalarem, jednak jest wektorem o długości (gdzie jest liczbą klas). Aby temu zaradzić, regresja logistyczna generuje osobne dane wyjściowe dla każdej z klasKażde wyjście jest skalarem i odpowiada prawdopodobieństwu przynależności do klasy .xyMMyjMyj∈[0,1]xj
y^=w⋅x+b,wherey^=y^1,y^2,...,yM
Najłatwiej to wymyślić jako proste niezależne regresje logistyczne, z których każda ma wynik:M
y^j=σ(wj⋅x+bj)
Z powyższego wynika, że między poszczególnymi klasami nie są dzielone ciężary .
wiele funkcji i wiele klas :
Łącząc dwa powyższe przypadki, możemy w końcu osiągnąć najbardziej ogólny przypadek wielu funkcji i wielu klas:
y^=σ(W⋅x+b)
gdzie jest wektorem o rozmiarze , jest wektorem o rozmiarze , jest wektorem o rozmiarze a jest macierzą o rozmiarze .
y^MxNbMW(N×M)
W każdym razie klasyfikatory liniowe nie dzielą żadnych parametrów między cechami lub klasami .
Aby odpowiedzieć na twoje drugie pytanie, klasyfikatory liniowe mają podstawowe założenie, że cechy muszą być niezależne , jednak nie tak zamierzał autor artykułu.