Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.
Ten post jest następujący: dlaczego oszacowanie grzbietu staje się lepsze niż OLS poprzez dodanie stałej do przekątnej? Oto moje pytanie: O ile mi wiadomo, w regularyzacji grzbietu stosuje się -norm (odległość euklidesowa). Ale dlaczego używamy kwadratu tej normy? (bezpośrednie zastosowanie dałoby pierwiastek kwadratowy z sumy beta kwadratu).ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 Dla porównania, nie …
Ostatnio widziałem wiele artykułów na temat rzadkich reprezentacji, a większość z nich używa normy i dokonuje pewnych minimalizacji. Moje pytanie brzmi: co to jest norma , a norma ? A w jaki sposób mają one znaczenie dla regularyzacji?ℓ pℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} Dzięki
Oto coś, co przeczytałem w książce Iana Goodfellow'a Deep Learning . W kontekście sieci neuronowych „kara za normę parametru L2 jest powszechnie znana jako zanik masy. Ta strategia regularyzacji przybliża wagi do źródła [...]. Mówiąc bardziej ogólnie, moglibyśmy uregulować parametry tak, aby znajdowały się w pobliżu dowolnego określonego punktu w …
Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …
Przez techniki regularyzacji mam na myśli lasso, regresję grzbietu, elastyczną siatkę i tym podobne. Rozważ model prognostyczny dotyczący danych opieki zdrowotnej zawierający dane demograficzne i dane diagnostyczne, w których przewiduje się długość pobytu w przypadku hospitalizacji. Dla niektórych osób istnieje wiele obserwacji LOS (tj. Więcej niż jeden epizod IP) podczas …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte w zeszłym roku . Jakie implementacje typu open source - w jakimkolwiek języku - istnieją, które mogą obliczać ścieżki regulacyjne lasso dla regresji liniowej poprzez …
Rozumiem, że regresja LASSO jest taka, że współczynniki regresji są wybrane w celu rozwiązania problemu minimalizacji: minβ. Y- Xβ∥2)2) s . t . ∥ β∥1≤ tminβ‖y-Xβ‖2)2) s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t W praktyce odbywa się to za pomocą mnożnika Lagrange'a, co powoduje problem do rozwiązania …
W kilku odpowiedziach widziałem, jak użytkownicy CrossValidated sugerują OP znaleźć wczesne artykuły na temat Lasso, Ridge i Elastic Net. Dla potomnych, jakie są przełomowe prace na temat Lasso, Ridge i Elastic Net?
Jeśli mam macierz projektową , gdzie jest liczbą obserwacji wymiaru , jaka jest złożoność rozwiązania dla z Lasso wrt i ? Myślę, że odpowiedź powinna odnosić się do tego, jak jedna iteracja LASSO skaluje się z tymi parametrami, a nie do tego, jak skaluje się liczba iteracji (zbieżności), chyba że …
Byłem ostatnio na kilku rozmowach statystycznych na temat Lasso (regularyzacja), a kwestią, która wciąż się pojawia, jest to, że tak naprawdę nie rozumiemy, dlaczego Lasso działa lub dlaczego działa tak dobrze. Zastanawiam się, do czego odnosi się to oświadczenie. Oczywiście rozumiem, dlaczego Lasso działa technicznie, zapobiegając nadmiernemu dopasowaniu poprzez kurczenie …
Jak mówi tytuł, próbuję powielić wyniki z glmnet linear przy użyciu optymalizatora LBFGS z biblioteki lbfgs. Ten optymalizator pozwala nam dodać termin regulatora L1 bez martwienia się o różnicę, o ile nasza funkcja celu (bez terminu regulatora L1) jest wypukła. Problem regresji liniowej siatki elastycznej w papierze glmnet podaje minβ∈ …
Dobrze wiadomo (np. W dziedzinie wykrywania kompresji), że norma „indukuje ” w tym sensie, że jeśli zminimalizujemy funkcjonalność (dla stałej macierzy i wektora ) dla wystarczająco dużych \ lambda> 0 , prawdopodobnie istnieje wiele opcji A , \ vec {b} , a \ lambda ma wiele dokładnie zerowych pozycji w …
Istnieje wiele metod przeprowadzania regularyzacji - na przykład regularyzacja oparta na normach , L 1 i L 2 . Według Friedmana Hastie & Tibsharani , najlepszy regulizator zależy od problemu: mianowicie charakteru prawdziwej funkcji celu, konkretnej zastosowanej podstawy, stosunku sygnału do szumu i wielkości próbki.L.0L0L_0L.1L1L_1L.2)L2L_2 Czy istnieją badania empiryczne porównujące …
W notatkach z 3 wykładów z kursu Coursera Machine Learning Andrew Ng do funkcji kosztów dodawany jest termin w celu wdrożenia regularyzacji: jot+( θ ) = J( θ ) +λ2 m∑j = 1nθ2)jotJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 Notatki z wykładu mówią: Możemy również uregulować wszystkie nasze parametry theta …
Korzystam z dwukierunkowego RNN, aby wykryć zdarzenie niezrównoważonego wystąpienia. Klasa dodatnia jest 100 razy rzadziej niż klasa negatywna. Chociaż nie używa się regularyzacji, mogę uzyskać 100% dokładności na zestawie pociągów i 30% na zestawie walidacji. Włączam regularyzację l2, a wynik to tylko 30% dokładności na zestawie pociągów zamiast dłuższego uczenia …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.