Uwzględnienie dodatkowych ograniczeń (zazwyczaj kara za złożoność) w procesie dopasowywania modelu. Służy do zapobiegania nadmiernemu dopasowaniu / zwiększania dokładności predykcyjnej.
Rozważ następujące trzy zjawiska. Paradoks Steina: biorąc pod uwagę niektóre dane z wielowymiarowego rozkładu normalnego w Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 , średnia próbki nie jest bardzo dobrym estymatorem prawdziwej średniej. Można uzyskać oszacowanie z niższym średnim błędem do kwadratu, jeśli zmniejsza się wszystkie współrzędne średniej próbki w kierunku zera …
Sezon wakacyjny dał mi możliwość zwinięcia się przy kominku dzięki elementom statystycznego uczenia się . Z perspektywy (częstej) ekonometrii mam problem z uchwyceniem zastosowania metod skurczu, takich jak regresja grzbietu, lasso i regresja najmniejszego kąta (LAR). Zazwyczaj interesują mnie same oszacowania parametrów i osiągnięcie bezstronności lub przynajmniej spójności. Metody skurczowe …
Rozumiem, że oszacowanie regresji grzbietu to która minimalizuje resztkową sumę kwadratu i kara za rozmiarββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Jednak nie do końca rozumiem znaczenie faktu, że βridgeβridge\beta_\text{ridge} różni się od βOLSβOLS\beta_\text{OLS} , dodając jedynie małą stałą do przekątnej X′XX′XX'X . W …
W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości bardzo duży, dlaczego skurczenie parametru nie spowoduje gorszej prognozy?
Rozważ dobry stary problem regresji z predyktorami i wielkością próby . Zazwyczaj mądrość jest taka, że estymator OLS będzie nadrzędny i generalnie będzie lepszy niż estymator regresji grzbietu:Standardowe jest stosowanie weryfikacji krzyżowej w celu znalezienia optymalnego parametru regularyzacji . Tutaj używam 10-krotnego CV. Aktualizacja wyjaśnienia: gdy , przez „estymator OLS” …
Jaka jest dokładna formuła zastosowana w R lm() dla skorygowanego kwadratu R? Jak mogę to zinterpretować? Skorygowane formuły r-kwadrat Wydaje się, że istnieje kilka wzorów do obliczania skorygowanego kwadratu R. Wzór Wherry:1 - ( 1 - R2)) ( n - 1 )( n - v )1-(1-R2))(n-1)(n-przeciwko)1-(1-R^2)\frac{(n-1)}{(n-v)} Wzór McNemara:1 - ( …
Przeczytałem trzy główne powody standaryzacji zmiennych przed czymś takim jak Lassoregresja: 1) Interpretowalność współczynników. 2) Możliwość uszeregowania znaczenia współczynnika według względnej wielkości oszacowań współczynnika skurczu. 3) Nie ma potrzeby przechwytywania. Ale zastanawiam się nad najważniejszą kwestią. Czy mamy powody sądzić, że standaryzacja poprawiłaby generalizację modelu poza próbą? Nie obchodzi mnie …
Oryginalny papier elastycznej siatki Zou & Hastie (2005) Regularyzacja i wybór zmiennych za pomocą elastycznej siatki wprowadzono funkcję elastycznej utraty siatki dla regresji liniowej (tutaj zakładam, że wszystkie zmienne są wyśrodkowane i skalowane do wariancji jednostkowej): ale nazwał to „naiwną elastyczną siecią”. Twierdzili, że wykonuje podwójny skurcz (lasso i grzbiet), …
Kiedyś słyszałem metodę podwójnego użycia lassa (jak podwójne lasso), w której wykonuje się lasso na oryginalnym zestawie zmiennych, powiedzmy S1, uzyskuje rzadki zbiór o nazwie S2, a następnie ponownie wykonuje lasso na zestawie S2, aby uzyskać zestaw S3 . Czy istnieje na to termin metodologiczny? Jakie są zalety podwójnego robienia …
Regresja LASSO zmniejsza współczynniki do zera, zapewniając w ten sposób efektywny wybór modelu. Uważam, że w moich danych występują znaczące interakcje między zmiennymi nominalnymi i ciągłymi zmiennymi towarzyszącymi. Jednak niekoniecznie „główne efekty” prawdziwego modelu są znaczące (niezerowe). Oczywiście tego nie wiem, ponieważ prawdziwy model jest nieznany. Moim celem jest znalezienie …
W przypadku modelu liniowego termin skurczu wynosi zawsze .P ( β )y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Jaki jest powód, dla którego nie zmniejszamy terminu odchylenia (przechwytywania) ? Czy powinniśmy zmniejszyć termin obciążenia w modelach sieci neuronowej?β0β0\beta_0
Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …
Czytałem o estymatorze Jamesa-Steina. W tych uwagach jest zdefiniowany jako θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Przeczytałem dowód, ale nie rozumiem następującego oświadczenia: Geometrycznie estymator Jamesa-Steina zmniejsza każdy składnik kierunku początku ...XXX Co dokładnie oznacza „zmniejsza każdy składnik XXX kierunku źródła”? Myślałem o czymś takim jak ∥θ^−0∥2<∥X−0∥2,‖θ^−0‖2<‖X−0‖2,\|\hat{\theta} - 0\|^2 < \|X - …
Mam pytanie dotyczące obliczania współczynnika James-Stein Kurczenie w 1977 Scientific American papierze Bradley Efron i Carl Morris, "Paradox Steina w Statistics" . Zebrałem dane dla graczy baseballowych i jest podany poniżej: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.