Czy regresja z regularyzacją L1 jest taka sama jak Lasso, a z regularyzacją L2 jest taka sama jak regresja kalenicy? A jak napisać „Lasso”?

Jestem inżynierem oprogramowania uczącym się uczenia maszynowego, szczególnie poprzez kursy uczenia maszynowego Andrew Ng . Badając regresję liniową z regularyzacją , znalazłem terminy, które są mylące:

Regresja z regularyzacją L1 lub regularyzacją L2
LASSO
Regresja kalenicy

Więc moje pytania:

Czy regresja z regularyzacją L1 jest dokładnie taka sama jak LASSO?
Czy regresja z regularyzacją L2 jest dokładnie taka sama jak regresja Ridge'a?
Jak używa się „LASSO” na piśmie? Czy powinna to być „regresja LASSO”? Widziałem takie użycie, jak „ lasso jest bardziej odpowiednie ”.

Jeśli odpowiedź brzmi „tak” dla 1 i 2 powyżej, to dlaczego istnieją różne nazwy dla tych dwóch terminów? Czy „L1” i „L2” pochodzą z informatyki / matematyki, a „LASSO” i „Ridge” ze statystyk?

Użycie tych terminów jest mylące, gdy widzę posty takie jak:

„ Jaka jest różnica między regularyzacją L1 i L2? ” (Quora.com)

„ Kiedy powinienem używać lasso kontra grzbiet? ” (Stats.stackexchange.com)

— stackoverflowuser2010
źródło

Chociaż odpowiadam późno. Ten kompleksowy przewodnik dla początkujących dotyczący regresji liniowej, grzbietu i regresji Lasso pomoże początkującym w zrozumieniu tych terminów. Zobacz tutaj

— uczeń

Tak.
Tak.
LASSO to akronim (najmniej bezwzględny operator skurczu i selekcji), więc powinien być pisany wielkimi literami, ale współczesne pisanie jest leksykalnym odpowiednikiem Mad Maxa . Z drugiej strony Amoeba pisze, że nawet statystycy, którzy wymyślili pojęcie LASSO, używają teraz renderowania małymi literami (Hastie, Tibshirani i Wainwright, Statistics Learning with Sparsity ). Można jedynie spekulować co do motywacji zmiany. Jeśli piszesz dla prasy akademickiej, zazwyczaj mają przewodnik po stylu dla tego rodzaju rzeczy. Jeśli piszesz na tym forum, jedno z nich jest w porządku i wątpię, czy ktokolwiek naprawdę to obchodzi.

zapis jest odniesienie do norm Minkowskiego i przestrzeni. Po prostu uogólniają pojęcie taksówek i odległości euklidesowe do w następującym wyrażeniu: Co ważne, tylko określa odległość metryczną; nie spełnia nierówności trójkąta, więc według większości definicji nie jest to odległość. $L$ $L^p$ $p>0$

‖ x ‖_{p} = (| x_{1} |^{p} + | x_{2} |^{p} + . . . + | x_{n} |^{p})^{\frac{1}{p}}

$\|x\|_p=(|x_1|^p+|x_2|^p+...+|x_n|^p)^{\frac{1}{p}}$

p \geq 1

$p\ge 1$

0 < p < 1

$0<p<1$

Nie jestem pewien, kiedy połączenie pomiędzy grzbietem a LASSO zostało zrealizowane.

Jeśli chodzi o to, dlaczego istnieje wiele nazw, to tylko kwestia, że metody te rozwinęły się w różnych miejscach w różnych momentach. Częstym tematem w statystykach jest to, że pojęcia często mają wiele nazw, po jednej dla każdego podpola, w którym zostało niezależnie odkryte (funkcje jądra vs funkcje kowariancji, regresja procesu Gaussa vs Kriging, AUC vs statystyka). Regresję grzbietu należy prawdopodobnie nazwać regularyzacją Tichonowa, ponieważ uważam, że ma najwcześniejsze prawo do tej metody. Tymczasem LASSO zostało wprowadzone dopiero w 1996 roku, znacznie później niż metoda „grzbietu” Tichonowa! $c$

— Sycorax mówi Przywróć Monikę
źródło

+1. W najnowszym podręczniku Statistics Learning with Sparsity Hastie, Tibshirani i Wainwright używają wszędzie „lasso” pisanych małymi literami, a także piszą następujące słowa (przypis na stronie 8): „Lasso to długa lina z pętlą na jednym koniec, używane do łapania koni i bydła. W sensie przenośnym metoda „lassos” współczynniki modelu. W oryginalnej pracy lasso (Tibshirani 1996) nazwa „lasso” została również wprowadzona jako akronim nazwy „Least Absolute” Operator selekcji i skurczu. ”” (CC do @ stackoverflowuser2010.)

— amoeba mówi Przywróć Monikę

I kontynuują: „Wymowa: w Stanach Zjednoczonych„ lasso ”jest zwykle wymawiane jako„ lass-oh ”(och jak w kozach), podczas gdy w Wielkiej Brytanii„ lass-oo ”. W OED (2. wydanie, 1965):„ lasso jest wymawiane przez tych, którzy go używają, a także przez większość Anglików. ”„ :-)

— amoeba mówi Przywróć Monikę

(+1) Ponieważ właściwe akronimy (te skróty wymawiane jako słowa) zyskują walutę, ich kapitalizacja zwykle idzie w parze z tablicą. Minęło trochę czasu, odkąd widziałem „RADAR” lub „LASER”.

— Scortchi - Przywróć Monikę

@Scortchi SCUBA też. Tymczasem mamy ludzi piszących STATA i MATLAB, jakby byli akronimami.

— shadowtalker

@ssdecontrol: Czy zatem „ANOVA” powinna być „AnOVa”?

— Scortchi - Przywróć Monikę