Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.
Czytam książki o regresji liniowej. Istnieje kilka zdań na temat norm L1 i L2. Znam je, po prostu nie rozumiem, dlaczego norma L1 dla rzadkich modeli. Czy ktoś może użyć prostego wyjaśnienia?
Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie. Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to , dla niektórych .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt Widziałem w …
W przeciwieństwie do innych artykułów, znalazłem wpis w Wikipedii dla tego tematu nieczytelny dla osoby niebędącej matematyką (jak ja). Zrozumiałem podstawową ideę, że faworyzujesz modele o mniejszej liczbie zasad. Nie rozumiem, jak przejść z zestawu reguł do „wyniku regularyzacji”, którego można użyć do sortowania modeli od najmniejszego do najbardziej nadmiernego. …
Czytam to i intuicyjnie widzę to, ale jak przejść od regularyzacji L2 do stwierdzenia, że analitycznie jest to Przeor Gaussa? To samo dotyczy twierdzenia, że L1 jest równoważne wcześniejszemu Laplaceanowi. Wszelkie dalsze odniesienia byłyby świetne.
W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości bardzo duży, dlaczego skurczenie parametru nie spowoduje gorszej prognozy?
Ilekroć stosuje się regularyzację, jest ona często dodawana do funkcji kosztu, na przykład w poniższej funkcji kosztu. Ma to dla mnie intuicyjny sens, ponieważ minimalizuję funkcja kosztu oznacza minimalizację błędu (lewy element) i minimalizację wielkości współczynników (prawy element) w tym samym czasie (lub przynajmniej równoważenie dwóch minimalizacji).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta …
Rozważ dobry stary problem regresji z predyktorami i wielkością próby . Zazwyczaj mądrość jest taka, że estymator OLS będzie nadrzędny i generalnie będzie lepszy niż estymator regresji grzbietu:Standardowe jest stosowanie weryfikacji krzyżowej w celu znalezienia optymalnego parametru regularyzacji . Tutaj używam 10-krotnego CV. Aktualizacja wyjaśnienia: gdy , przez „estymator OLS” …
W tradycyjnej statystyce, budując model, sprawdzamy wielokoliniowość za pomocą metod takich jak szacunki współczynnika inflacji wariancji (VIF), ale w uczeniu maszynowym zamiast tego używamy regularyzacji do wyboru funkcji i nie wydaje się, aby sprawdzać, czy cechy są skorelowane w ogóle. Dlaczego to robimy?
Regularność za pomocą metod takich jak Ridge, Lasso, ElasticNet jest dość powszechna w przypadku regresji liniowej. Chciałem wiedzieć, co następuje: Czy te metody mają zastosowanie do regresji logistycznej? Jeśli tak, to czy istnieją jakieś różnice w sposobie ich wykorzystania do regresji logistycznej? Jeśli te metody nie mają zastosowania, w jaki …
Momentum służy do zmniejszenia wahań zmian masy w kolejnych iteracjach:αα\alpha gdzieE(w)jest funkcją błędu,w- wektor wag,η- szybkość uczenia się.Δ ωja( t + 1 ) = - η∂mi∂wja+ α Δ ωja( t ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Rozpad masy karze zmiany masy:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- …
Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej. Znam rozwiązanie regresji bez terminu regularyzacji: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje sięλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.
Czy są jakieś badania empiryczne uzasadniające stosowanie jednej standardowej reguły błędu na korzyść parsimony? Oczywiście zależy to od procesu generowania danych, ale wszystko, co analizuje duży zbiór zbiorów danych, byłoby bardzo interesujące. „Jedna standardowa reguła błędu” jest stosowana przy wyborze modeli poprzez walidację krzyżową (lub bardziej ogólnie za pomocą dowolnej …
Problem, który często pojawiałem się w kontekście sieci neuronowych, w szczególności sieci neuronowych, polega na tym, że są „głodne danych” - to znaczy, że nie działają one dobrze, chyba że mamy duży zestaw danych z którymi trenować sieć. Rozumiem, że wynika to z faktu, że sieci sieciowe, zwłaszcza sieci głębokie, …
Na stronie 223 we wstępie do nauki statystycznej autorzy podsumowują różnice między regresją grzbietu a lasso. Podają przykład (ryc. 6.9), kiedy „lasso ma tendencję do przewyższania regresji grzbietu pod względem stronniczości, wariancji i MSE”. Rozumiem, dlaczego lasso może być pożądane: skutkuje rzadkimi rozwiązaniami, ponieważ zmniejsza wiele współczynników do 0, co …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.