Ogólna metoda tworzenia rzadkich rozwiązań polega na oszacowaniu MAP przy zerowej średniej normalnej przed nieznaną wariancją.
p(xi|σ2i)∼N(0,σ2i)
Jeśli następnie przypiszesz przed który ma tryb zerowy, wtedy tryb tylny jest zwykle rzadki. wynika z tego podejścia, biorąc wykładniczy rozkład mieszania.σ2iL1
p(σ2i|λ)∼Expo(λ22)
To dostajesz
log[p(xi|λ)]=−λ|xi|+log[λ2]
Niektóre alternatywy to uogólnione podwójne pareto, pół cauchy, odwrócona beta. W pewnym sensie są one lepsze niż lasso, ponieważ nie zmniejszają dużych wartości. W rzeczywistości jestem prawie pewien, że uogólnione podwójne pareto można zapisać jako mieszaninę wykładników. Oznacza to, że piszemy a następnie umieszczamy wartość gamma przed p ( λ i | α β ) . Otrzymujemy:λ=λip ( λja| αβ)
p ( xja| αβ) = α2β(1+|xi|β)−(α+1)
Zauważ, że uwzględniłem stałe normalizujące, ponieważ pomagają one wybrać dobre parametry globalne. Teraz, jeśli zastosujemy ograniczenie zakresu, będziemy mieli bardziej skomplikowany problem, ponieważ musimy renormalizować na simpleksie.
Inną ogólną cechą kar wywołujących rzadkość jest to, że nie można ich odróżnić od zera. Zwykle dzieje się tak, ponieważ lewy i prawy limit mają przeciwny znak.
Jest to oparte na genialnej pracy Nicolasa Polsona i Jamesa Scotta na temat reprezentacji wariancji średnich mieszanin, których używają do opracowania TIRLS - masywne rozszerzenie najmniejszych kwadratów do bardzo dużej klasy kombinacji strat i kar.
Alternatywnie można użyć wcześniejszego, który jest zdefiniowany na simpleksie, ale ma tryby w rozkładach krańcowych na zero. Jednym z przykładów jest rozkład dirichleta ze wszystkimi parametrami między 0 a 1. Implikowana kara wyglądałaby następująco:
- ∑i = 1n - 1( aja- 1 ) log( xja) - ( an- 1 ) log(1−∑i=1n−1xi)
Gdzie . Jednak trzeba zachować ostrożność przy optymalizacji numerycznej, ponieważ kara ma osobliwości. Bardziej solidnym procesem szacowania jest użycie średniej tylnej. Chociaż stracisz dokładną rzadkość, otrzymasz wiele tylnych środków, które są bliskie zeru. P0<ai<1