Pytania otagowane jako model-selection

Wybór modelu to problem polegający na ocenie, który model z jakiegoś zestawu działa najlepiej. Popularne metody obejmują kryteria , AIC i BIC, zestawy testów i walidację krzyżową. W pewnym stopniu wybór funkcji jest podproblemem wyboru modelu. R2)

1
logloss vs gini / auc
Przeszkoliłem dwa modele (klasyfikatory binarne przy użyciu h2o AutoML) i chcę wybrać jeden do użycia. Mam następujące wyniki: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 auci loglosskolumny są metryki cross-validation (tylko krzyż walidacja wykorzystuje dane szkolenie). …

2
Najlepsze sugerowane podręczniki na temat ponownego próbkowania Bootstrap?
Chciałem tylko zapytać, które według ciebie są najlepsze dostępne książki na temat bootstrapu. Rozumiem przez to niekoniecznie tylko ten napisany przez jego twórców. Czy możesz wskazać, który podręcznik jest dla Ciebie najlepszy dla bootstrapu, który spełnia następujące kryteria? Podstawa filozoficzna / epistemologiczna techniki, która wymienia dziedzinę stosowalności, mocne i słabe …


2
Czy regresja krokowa zapewnia tendencyjne oszacowanie kwadratowej liczby ludności?
W psychologii i innych dziedzinach często stosuje się formę regresji stopniowej, która obejmuje: Spójrz na pozostałe predyktory (początkowo nie ma ich w modelu) i zidentyfikuj predyktor, który powoduje największą zmianę r-kwadrat; Jeśli wartość p zmiany r-kwadrat jest mniejsza niż alfa (zazwyczaj 0,05), to włącz ten predyktor i wróć do kroku …


2
Wybór modelu Boxa-Jenkinsa
Procedura wyboru modelu Boxa-Jenkinsa w analizie szeregów czasowych rozpoczyna się od przyjrzenia się funkcjom autokorelacji i częściowej autokorelacji w serii. Te wykresy mogą sugerować odpowiednie i q w modelu ARMA ( p , q ) . Procedura jest kontynuowana, prosząc użytkownika o zastosowanie kryteriów AIC / BIC w celu wybrania …

4
Jaki jest sens regresji jednowymiarowej przed regresją wielowymiarową?
Obecnie pracuję nad problemem, w którym mamy niewielki zestaw danych i interesuje mnie wpływ przyczynowy leczenia na wynik. Mój doradca polecił mi wykonać regresję jednowymiarową na każdym predyktorze z wynikiem jako odpowiedzią, a następnie przypisaniem leczenia jako odpowiedzią. Tzn. Poproszono mnie o dopasowanie regresji do jednej zmiennej na raz i …


2
Regresja liniowa a nieliniowa
Mam zestaw wartości i , które są teoretycznie związanych wykładniczo:xxxyyy y=axby=axby = ax^b Jednym ze sposobów uzyskania współczynników jest zastosowanie logarytmów naturalnych po obu stronach i dopasowanie modelu liniowego: > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] Innym sposobem uzyskania tego jest regresja nieliniowa, biorąc pod …

2
Co to są testy porcji?
W odpowiedzi na pytanie o wybór modelu w obecności Współliniowość , Frank Harrell zaproponował : Umieść wszystkie zmienne w modelu, ale nie testuj wpływu jednej zmiennej skorygowanej o skutki zmiennych konkurujących ... Testy fragmentów zmiennych konkurencyjnych są potężne, ponieważ zmienne współliniowe łączą siły w ogólnym teście asocjacji wielokrotnego stopnia swobody …

2
Opis ładowania początkowego do sprawdzania poprawności i wyboru modelu
Wydaje mi się, że rozumiem, jak działają podstawy ładowania początkowego , ale nie jestem pewien, czy rozumiem, jak mogę użyć ładowania początkowego do wyboru modelu lub uniknąć nadmiernego dopasowania. Na przykład, aby wybrać model, czy po prostu wybierzesz model, który daje najniższy błąd (może wariancję?) We wszystkich próbkach ładowania początkowego? …

2
Zrozumienie AIC i kryterium Schwarz
Korzystam z modelu logistycznego. Rzeczywisty zestaw danych modelu zawiera ponad 100 zmiennych, ale wybieram zestaw danych testowych, w którym jest około 25 zmiennych. Wcześniej stworzyłem również zestaw danych, który zawierał 8–9 zmiennych. Powiedziano mi, że do porównania modelu można użyć wartości AIC i SC. Zauważyłem, że model ma wyższe wartości …

3
Używanie geometrii informacji do definiowania odległości i objętości… przydatne?
Natknąłem się na obszerną literaturę, która opowiada się za wykorzystaniem metryki Informacji Fishera jako naturalnej metryki lokalnej w przestrzeni rozkładów prawdopodobieństwa, a następnie integracji jej w celu określenia odległości i objętości. Ale czy te „zintegrowane” ilości są rzeczywiście przydatne do czegoś? Nie znalazłem teoretycznych uzasadnień i bardzo mało praktycznych zastosowań. …

2
Czy istnieją okoliczności, w których należy zastosować regresję stopniową?
W przeszłości stosowano regresję krokową w wielu pracach biomedycznych, ale wydaje się, że poprawia się to wraz z lepszą edukacją wielu zagadnień. Jednak wielu starszych recenzentów wciąż o to prosi. Jakie są okoliczności, w których regresja krokowa odgrywa rolę i powinna być stosowana, jeśli w ogóle?

1
Wyjaśnić kroki algorytmu LLE (lokalne osadzanie liniowe)?
Rozumiem, że podstawowa zasada algorytmu dla LLE składa się z trzech kroków. Znajdowanie sąsiedztwa każdego punktu danych za pomocą niektórych miar, takich jak k-nn. Znajdź wagi dla każdego sąsiada, które oznaczają wpływ sąsiada na punkt danych. Skonstruuj osadzanie danych w małych wymiarach na podstawie obliczonych wag. Ale matematyczne wyjaśnienie kroków …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.