Są one rzeczywiście równoważne, ponieważ zawsze można przeskalować (patrz także komentarz @ Whuber). Z teoretycznego punktu widzenia jest to kwestia wygody, ale o ile wiem, nie jest to konieczne. Z perspektywy obliczeniowej uważam, że dość irytujące, więc zwykle używam pierwszego sformułowania, jeśli projektuję algorytm, który wykorzystuje regularyzację.λ1/(2n)
Trochę historii: Kiedy zacząłem uczyć się o metodach karanych, denerwowałem się noszeniem wszędzie w mojej pracy, więc wolałem to zignorować - nawet uprościło niektóre moje obliczenia. W tym czasie moja praca była głównie obliczeniowa. Niedawno robiłem prace teoretyczne i znalazłem niezbędny (nawet w porównaniu, powiedzmy, ).1/(2n)1/(2n)1/n
Więcej szczegółów: Kiedy próbujesz przeanalizować zachowanie Lasso jako funkcję wielkości próby , często masz do czynienia z sumami zmiennych losowych iid, a w praktyce wygodniej jest analizować takie sumy po normalizacji przez - -myśl prawo wielkich liczb / centralne twierdzenie graniczne (lub jeśli chcesz uzyskać fantazję, koncentrację miary i empiryczną teorię procesu). Jeśli nie masz warunku przed stratą, ostatecznie kończysz przeskalowywanie czegoś pod koniec analizy, więc ogólnie lepiej jest mieć to na początek. jest wygodne, ponieważ odwołuje się kilka irytujących czynnikównn1/n1/22 w analizie (np. gdy weźmiesz pochodną kwadratu terminu straty).
Innym sposobem myślenia o tym jest to, że robiąc teorię, jesteśmy ogólnie zainteresowani zachowaniem rozwiązań w miarę wzrostu - to znaczy nie jest jakąś stałą wielkością. W praktyce, gdy uruchamiamy Lasso na jakimś stałym zestawie danych, jest rzeczywiście ustalone z perspektywy algorytmu / obliczeń. Tak więc dodatkowy czynnik normalizujący z przodu nie jest aż tak pomocny.nnn
Może to wydawać się irytujące dla wygody, ale po spędzeniu wystarczająco dużo czasu na manipulowaniu tego rodzaju nierównościami, nauczyłem się kochać .1/(2n)