Lasso bayesowskie kontra zwykłe lasso

24

Dostępne są różne programy wdrożeniowe dla lasso . Wiem wiele dyskusji na temat podejścia bayesowskiego i częstego na różnych forach. Moje pytanie jest bardzo specyficzne dla lasso - jakie są różnice lub zalety lasso baysian w porównaniu ze zwykłym lasso ?

Oto dwa przykłady implementacji w pakiecie:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Kiedy więc powinienem wybrać jedną lub inną metodę? Czy są takie same?

r machine-learning linear-model lasso

— rdorlearn
źródło

30

Standardowe lasso stosuje karę regulacyjną L1, aby osiągnąć rzadką regresję. Zauważ, że jest to również znane jako Basis Pursuit .

W ramach bayesowskich wybór regulizera jest analogiczny do wyboru wcześniejszego niż wagi. Jeśli użyty zostanie przeor Gaussa, wówczas rozwiązanie Maximum a posteriori (MAP) będzie takie samo, jak gdyby zastosowano karę L2. Chociaż poprzedni Laplace nie jest bezpośrednio równoważny, (który ostro osiąga zero, w przeciwieństwie do Gaussa, który jest gładki wokół zera), daje taki sam efekt skurczu w stosunku do kary L1. Ten artykuł opisuje lasso bayesowskie. .

W rzeczywistości, gdy umieścisz Laplace'a przed parametrami, rozwiązanie MAP powinno być identyczne (a nie tylko podobne) do regularyzacji z karą L1, a wcześniej Laplace wytworzy identyczny efekt skurczu w stosunku do kary L1. Jednak z powodu przybliżenia w procedurze wnioskowania bayesowskiego lub innych zagadnień numerycznych rozwiązania mogą w rzeczywistości nie być identyczne.

W większości przypadków wyniki uzyskane obiema metodami będą bardzo podobne. W zależności od metody optymalizacji i tego, czy stosowane są aproksymacje, standardowe lasso będzie prawdopodobnie bardziej wydajne w obliczeniach niż wersja bayesowska. Bayesian automatycznie tworzy oszacowania przedziałów dla wszystkich parametrów, w tym wariancji błędu, jeśli są one wymagane.

— tdc
źródło

„Jeśli użyty zostanie przeor Gaussa, rozwiązanie maksymalnego prawdopodobieństwa będzie takie samo ...”. Podświetlona fraza powinna brzmieć „Maximum A Posteriori (MAP)”, ponieważ oszacowanie maksymalnej wiarygodności po prostu zignoruje wcześniejszy rozkład parametrów, co prowadzi do nieregularnego rozwiązania, podczas gdy oszacowanie MAP bierze pod uwagę wcześniej.

— mefathy

1

Kiedy umieścisz Laplace'a przed parametrami, rozwiązanie MAP będzie identyczne (a nie tylko podobne) do regularyzacji z karą L1, a wcześniej Laplace wytworzy identyczny efekt skurczu jak kara L1.

— mefathy

@mefathy tak, masz rację w obu przypadkach (nie mogę uwierzyć, że napisałem ML zamiast MAP ....), chociaż oczywiście w praktyce YMMV. Zaktualizowałem odpowiedź, aby uwzględnić oba komentarze.

— tdc

6

„Najmniejsze kwadraty” oznaczają, że ogólne rozwiązanie minimalizuje sumę kwadratów błędów popełnionych w wynikach każdego pojedynczego równania. Najważniejszym zastosowaniem jest dopasowanie danych. Najlepsze dopasowanie w sensie najmniejszych kwadratów minimalizuje sumę kwadratów reszt, przy czym reszta jest różnicą między wartością obserwowaną a dopasowaną wartością dostarczoną przez model. Problemy z najmniejszymi kwadratami dzielą się na dwie kategorie: liniowe lub zwykłe najmniejsze kwadraty i inne liniowe najmniejsze kwadraty, w zależności od tego, czy reszty są liniowe we wszystkich niewiadomych.

Bayesowska regresja liniowa to podejście do regresji liniowej, w którym analiza statystyczna jest przeprowadzana w kontekście wnioskowania bayesowskiego. Gdy w modelu regresji występują błędy o rozkładzie normalnym i przy założeniu określonej formy wcześniejszego rozkładu, dostępne są wyraźne wyniki dla późniejszych rozkładów prawdopodobieństwa parametrów modelu.

$\|\beta\|^2$

Alternatywną regularną wersją najmniejszych kwadratów jest Lasso (operator najmniejszego bezwzględnego skurczu i operatora wyboru), który wykorzystuje ograniczenie, że , norma L1 wektora parametru, nie jest większa niż podana wartość . W kontekście bayesowskim jest to równoważne z umieszczeniem zerowej średniej Laplace'a przed rozkładem na wektorze parametrów. $\|\beta\|_1$

Jedną z głównych różnic między regresją Lasso i regresji kalenicowej jest to, że w regresji kalenicowej, wraz ze wzrostem kary, wszystkie parametry są zmniejszane, pozostając niezerowe, podczas gdy w Lasso, zwiększenie kary spowoduje, że będzie coraz więcej parametrów doprowadzony do zera.

W pracy porównano regularne lasso z lasso bayesowskie i regresją kalenicową (patrz ryc. 1 ).

— Jan
źródło