Pytania otagowane jako model-selection

Wybór modelu to problem polegający na ocenie, który model z jakiegoś zestawu działa najlepiej. Popularne metody obejmują kryteria , AIC i BIC, zestawy testów i walidację krzyżową. W pewnym stopniu wybór funkcji jest podproblemem wyboru modelu. R2)

1
Odpowiedni pozostały stopień swobody po usunięciu warunków z modelu
Zastanawiam się nad dyskusją wokół tego pytania, aw szczególności z komentarzem Franka Harrella, że ​​oszacowanie wariancji w modelu zredukowanym (tj. Takim, z którego przetestowano i odrzucono wiele zmiennych objaśniających) powinno wykorzystywać ogólny stopień wolności Ye . Profesor Harrell podkreśla, że ​​będzie to znacznie bliższe pozostałym stopniom swobody oryginalnego „pełnego” modelu …

3
Czy AIC może porównywać różne typy modeli?
Używam AIC (Akaike's Information Criterion) do porównywania modeli nieliniowych w R. Czy warto porównywać AIC różnych typów modeli? Konkretnie porównuję model dopasowany przez glm do modelu z terminem efektu losowego dopasowanego przez glmer (lme4). Jeśli nie, to czy można dokonać takiego porównania? A może pomysł jest całkowicie nieważny?

4
Jak mierzyć / oceniać „zmienne znaczenie” podczas korzystania z CART? (konkretnie używając {rpart} z R)
Podczas budowania modelu CART (w szczególności drzewa klasyfikacji) przy użyciu rpart (w R) często interesujące jest wiedzieć, jakie znaczenie mają różne zmienne wprowadzone do modelu. Tak więc moje pytanie brzmi: jakie wspólne miary istnieją dla uszeregowania / pomiaru znaczenia zmiennych uczestniczących zmiennych w modelu CART? I jak można to obliczyć …


4
Rozwiązanie problemu niepewności modelu
Zastanawiałem się, jak Bayesianie ze społeczności CrossValidated postrzegają problem niepewności modelu i jak wolą sobie z tym poradzić? Postaram się zadać pytanie w dwóch częściach: Jak ważne (według twojego doświadczenia / opinii) jest radzenie sobie z niepewnością modelu? Nie znalazłem żadnych artykułów na ten temat w społeczności uczącej się maszynowo, …

5
Jaka jest zaleta traktowania czynnika jako losowego w modelu mieszanym?
Mam problem z uznaniem korzyści oznaczania czynnika modelowego za losowy z kilku powodów. Wydaje mi się, że prawie we wszystkich przypadkach optymalnym rozwiązaniem jest traktowanie wszystkich czynników jako ustalonych. Po pierwsze, rozróżnienie między ustalonym a losowym jest dość arbitralne. Standardowe wyjaśnienie jest takie, że jeśli ktoś interesuje się konkretnymi jednostkami …

4
Czy masz globalną wizję tych technik analizy?
Obecnie pracuję nad projektem, w którym zasadniczo potrzebuję, podobnie jak wszyscy, aby zrozumieć, w jaki sposób wyjście jest powiązane z wejściem . Szczególną cechą jest to, że dane są mi przekazywane pojedynczo, dlatego chcę aktualizować swoją analizę za każdym razem, gdy otrzymuję nowy . Wierzę, że nazywa się to przetwarzaniem …

2
Stabilność tematu w modelach tematycznych
Pracuję nad projektem, w którym chcę wyodrębnić trochę informacji o zawartości serii esejów otwartych. W tym konkretnym projekcie 148 osób napisało eseje o hipotetycznej organizacji studenckiej w ramach większego eksperymentu. Chociaż w mojej dziedzinie (psychologia społeczna) typowym sposobem analizy tych danych byłoby ręczne kodowanie esejów, chciałbym to zrobić ilościowo, ponieważ …

3
AIC a walidacja krzyżowa w szeregach czasowych: przypadek małej próbki
Interesuje mnie wybór modelu w ustawieniach szeregów czasowych. Dla konkretności załóżmy, że chcę wybrać model ARMA z puli modeli ARMA o różnych rzędach opóźnień. Ostatecznym celem jest prognozowanie . Wyboru modelu można dokonać za pomocą krzyżowa walidacja, stosowanie kryteriów informacyjnych (AIC, BIC), wśród innych metod. Rob J. Hyndman zapewnia sposób …

2
Dlaczego dowód Wilksa z 1938 r. Nie działa na źle określone modele?
W słynnym artykule z 1938 r. („ Rozkład dużych próbek dla wskaźnika prawdopodobieństwa do testowania hipotez złożonych ”, Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks wyprowadził asymptotyczny rozkład (iloraz ) dla hipotez zagnieżdżonych, przy założeniu, że większa hipoteza jest poprawnie określona. Rozkład ograniczającym jest (Chi-kwadrat) w stopniach swobody, gdzie …

4
Kiedy mają zastosowanie wyniki Shao dotyczące krzyżowej walidacji z pominięciem jednego z nich?
W swoim artykule Linear Model Selection by Cross-Validation Jun Shao pokazuje, że w przypadku problemu selekcji zmiennych w wielowymiarowej regresji liniowej metoda walidacji krzyżowej z pominięciem jednego elementu (LOOCV) jest „asymptotycznie niespójna”. W prostym języku angielskim ma tendencję do wybierania modeli ze zbyt wieloma zmiennymi. W badaniu symulacyjnym Shao pokazuje, …

1
Wybór spośród właściwych zasad punktacji
Większość zasobów na temat prawidłowych reguł punktowania wymienia szereg różnych zasad punktacji, takich jak utrata logów, wynik Briera lub punktacja sferyczna. Często jednak nie udzielają zbyt wielu wskazówek na temat różnic między nimi. (Dowód A: Wikipedia .) Wybór modelu, który maksymalizuje wynik logarytmiczny, odpowiada wybraniu modelu największej wiarygodności, co wydaje …

3
Stabilność modelu w przypadku dużego problemu , małego
Wprowadzenie: Mam zestaw danych z klasycznym „dużym problemem p, małym n”. Liczba dostępnych próbek n = 150, a liczba możliwych predyktorów p = 400. Wynik jest zmienną ciągłą. Chcę znaleźć najważniejsze „deskryptory”, tj. Te, które są najlepszymi kandydatami do wyjaśnienia wyniku i pomocy w zbudowaniu teorii. Po badaniach na ten …

2
Najlepsze podejście do wyboru modelu Bayesian czy walidacja krzyżowa?
Próbując wybrać spośród różnych modeli lub liczby funkcji do uwzględnienia, powiedzmy przewidywanie, że mogę wymyślić dwa podejścia. Podziel dane na zestawy szkoleniowe i testowe. Jeszcze lepiej, użyj ładowania początkowego lub krzyżowej weryfikacji K-fold. Trenuj na zestawie treningowym za każdym razem i oblicz błąd w stosunku do zestawu testowego. Błąd testu …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.