Uwzględnienie dodatkowych ograniczeń (zwykle kara za złożoność) w procesie dopasowania modelu. Służy do zapobiegania przeuczeniu / zwiększenia dokładności predykcyjnej.
Próbuję dopasować wielowymiarowy model regresji liniowej z około 60 zmiennymi predykcyjnymi i 30 obserwacjami, więc używam pakietu glmnet do regresji regularnej, ponieważ p> n. Przeglądałem dokumentację i inne pytania, ale nadal nie mogę zinterpretować wyników, oto przykładowy kod (z 20 predyktorami i 10 obserwacjami w celu uproszczenia): Tworzę macierz x …
Czy elastyczna regularyzacja sieci jest zawsze lepsza niż Lasso i Ridge, ponieważ wydaje się, że rozwiązuje ona wady tych metod? Czym jest intuicja i jaka matematyka kryje się za elastyczną siatką?
Wyobrażam sobie, że im większy współczynnik dla zmiennej, tym większa zdolność modelu do „kołysania się” w tym wymiarze, co zapewnia większą możliwość dopasowania hałasu. Chociaż myślę, że mam rozsądne wyczucie związku między wariancją w modelu a dużymi współczynnikami, nie mam tak dobrego zrozumienia, dlaczego występują one w modelach z dopasowaniem. …
Jestem inżynierem oprogramowania uczącym się uczenia maszynowego, szczególnie poprzez kursy uczenia maszynowego Andrew Ng . Badając regresję liniową z regularyzacją , znalazłem terminy, które są mylące: Regresja z regularyzacją L1 lub regularyzacją L2 LASSO Regresja kalenicy Więc moje pytania: Czy regresja z regularyzacją L1 jest dokładnie taka sama jak LASSO? …
Jak porównują metody regulowania grzbietów, LASSO i elasticnetu? Jakie są ich zalety i wady? Doceniony zostanie również każdy dobry artykuł techniczny lub notatki z wykładu.
Czy ktoś może polecić dobre przedstawienie teorii stojącej za częściową regresją najmniejszych kwadratów (dostępną online) dla kogoś, kto rozumie SVD i PCA? Przejrzałem wiele źródeł online i nie znalazłem niczego, co miałoby właściwe połączenie rygorystyczności i dostępności. Przyjrzałem się elementom uczenia statystycznego , które zostały zasugerowane w komentarzu do pytania …
Na przykład podczas regresji, dwoma hiperparametrami do wyboru są często pojemność funkcji (np. Największy wykładnik wielomianu) i ilość regularyzacji. Jestem zdezorientowany, dlaczego nie po prostu wybrać funkcję niskiej pojemności, a następnie zignorować jakąkolwiek regularyzację? W ten sposób nie będzie pasował. Jeśli mam funkcję dużej pojemności wraz z regularyzacją, czy to …
Uwaga: Wiem, że L1 ma właściwość wyboru funkcji. Próbuję zrozumieć, który wybrać, gdy wybór funkcji jest całkowicie nieistotny. Jak zdecydować, której regularyzacji (L1 lub L2) użyć? Jakie są zalety i wady każdej z regulacji L1 / L2? Czy zaleca się najpierw dokonać wyboru funkcji za pomocą L1, a następnie zastosować …
Chciałbym użyć GLM i elastycznej sieci, aby wybrać te istotne cechy + zbudować model regresji liniowej (tj. Zarówno przewidywanie, jak i zrozumienie, więc lepiej byłoby pozostawić stosunkowo niewiele parametrów). Wyjście jest ciągłe. To genów na przypadków. Czytałem o pakiecie, ale nie jestem w 100% pewien kroków, które należy wykonać:200002000020000505050glmnet Wykonaj …
Korzystam z funkcji auto.arima () w pakiecie prognozy , aby dopasować modele ARMAX do różnych zmiennych towarzyszących. Jednak często mam dużą liczbę zmiennych do wyboru i zwykle kończę na ostatecznym modelu, który działa z ich podzbiorem. Nie lubię technik ad hoc do wybierania zmiennych, ponieważ jestem człowiekiem i podlegam tendencyjności, …
Problem lasso ma rozwiązanie w formie zamkniętej: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + jeśli X ma kolumny ortonormalne. Pokazano to w tym wątku: Wyprowadzenie …
Przeczytałem trzy główne powody standaryzacji zmiennych przed czymś takim jak Lassoregresja: 1) Interpretowalność współczynników. 2) Możliwość uszeregowania znaczenia współczynnika według względnej wielkości oszacowań współczynnika skurczu. 3) Nie ma potrzeby przechwytywania. Ale zastanawiam się nad najważniejszą kwestią. Czy mamy powody sądzić, że standaryzacja poprawiłaby generalizację modelu poza próbą? Nie obchodzi mnie …
Oryginalny papier elastycznej siatki Zou & Hastie (2005) Regularyzacja i wybór zmiennych za pomocą elastycznej siatki wprowadzono funkcję elastycznej utraty siatki dla regresji liniowej (tutaj zakładam, że wszystkie zmienne są wyśrodkowane i skalowane do wariancji jednostkowej): ale nazwał to „naiwną elastyczną siecią”. Twierdzili, że wykonuje podwójny skurcz (lasso i grzbiet), …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.