Wybór modelu to problem polegający na ocenie, który model z jakiegoś zestawu działa najlepiej. Popularne metody obejmują kryteria , AIC i BIC, zestawy testów i walidację krzyżową. W pewnym stopniu wybór funkcji jest podproblemem wyboru modelu.
R2)
Zastanawiam się nad dyskusją wokół tego pytania, aw szczególności z komentarzem Franka Harrella, że oszacowanie wariancji w modelu zredukowanym (tj. Takim, z którego przetestowano i odrzucono wiele zmiennych objaśniających) powinno wykorzystywać ogólny stopień wolności Ye . Profesor Harrell podkreśla, że będzie to znacznie bliższe pozostałym stopniom swobody oryginalnego „pełnego” modelu …
Używam AIC (Akaike's Information Criterion) do porównywania modeli nieliniowych w R. Czy warto porównywać AIC różnych typów modeli? Konkretnie porównuję model dopasowany przez glm do modelu z terminem efektu losowego dopasowanego przez glmer (lme4). Jeśli nie, to czy można dokonać takiego porównania? A może pomysł jest całkowicie nieważny?
Podczas budowania modelu CART (w szczególności drzewa klasyfikacji) przy użyciu rpart (w R) często interesujące jest wiedzieć, jakie znaczenie mają różne zmienne wprowadzone do modelu. Tak więc moje pytanie brzmi: jakie wspólne miary istnieją dla uszeregowania / pomiaru znaczenia zmiennych uczestniczących zmiennych w modelu CART? I jak można to obliczyć …
Jakie dokładnie warunki należy spełnić, aby porównanie modeli AIC zadziałało? Właśnie natrafiłem na to pytanie, kiedy porównałem to: > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 W ten sposób uzasadniłem logtransformację zmiennej usili. Ale nie wiem, czy mogę …
Zastanawiałem się, jak Bayesianie ze społeczności CrossValidated postrzegają problem niepewności modelu i jak wolą sobie z tym poradzić? Postaram się zadać pytanie w dwóch częściach: Jak ważne (według twojego doświadczenia / opinii) jest radzenie sobie z niepewnością modelu? Nie znalazłem żadnych artykułów na ten temat w społeczności uczącej się maszynowo, …
Mam problem z uznaniem korzyści oznaczania czynnika modelowego za losowy z kilku powodów. Wydaje mi się, że prawie we wszystkich przypadkach optymalnym rozwiązaniem jest traktowanie wszystkich czynników jako ustalonych. Po pierwsze, rozróżnienie między ustalonym a losowym jest dość arbitralne. Standardowe wyjaśnienie jest takie, że jeśli ktoś interesuje się konkretnymi jednostkami …
Obecnie pracuję nad projektem, w którym zasadniczo potrzebuję, podobnie jak wszyscy, aby zrozumieć, w jaki sposób wyjście jest powiązane z wejściem . Szczególną cechą jest to, że dane są mi przekazywane pojedynczo, dlatego chcę aktualizować swoją analizę za każdym razem, gdy otrzymuję nowy . Wierzę, że nazywa się to przetwarzaniem …
Pracuję nad projektem, w którym chcę wyodrębnić trochę informacji o zawartości serii esejów otwartych. W tym konkretnym projekcie 148 osób napisało eseje o hipotetycznej organizacji studenckiej w ramach większego eksperymentu. Chociaż w mojej dziedzinie (psychologia społeczna) typowym sposobem analizy tych danych byłoby ręczne kodowanie esejów, chciałbym to zrobić ilościowo, ponieważ …
Interesuje mnie wybór modelu w ustawieniach szeregów czasowych. Dla konkretności załóżmy, że chcę wybrać model ARMA z puli modeli ARMA o różnych rzędach opóźnień. Ostatecznym celem jest prognozowanie . Wyboru modelu można dokonać za pomocą krzyżowa walidacja, stosowanie kryteriów informacyjnych (AIC, BIC), wśród innych metod. Rob J. Hyndman zapewnia sposób …
W słynnym artykule z 1938 r. („ Rozkład dużych próbek dla wskaźnika prawdopodobieństwa do testowania hipotez złożonych ”, Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks wyprowadził asymptotyczny rozkład (iloraz ) dla hipotez zagnieżdżonych, przy założeniu, że większa hipoteza jest poprawnie określona. Rozkład ograniczającym jest (Chi-kwadrat) w stopniach swobody, gdzie …
W swoim artykule Linear Model Selection by Cross-Validation Jun Shao pokazuje, że w przypadku problemu selekcji zmiennych w wielowymiarowej regresji liniowej metoda walidacji krzyżowej z pominięciem jednego elementu (LOOCV) jest „asymptotycznie niespójna”. W prostym języku angielskim ma tendencję do wybierania modeli ze zbyt wieloma zmiennymi. W badaniu symulacyjnym Shao pokazuje, …
Większość zasobów na temat prawidłowych reguł punktowania wymienia szereg różnych zasad punktacji, takich jak utrata logów, wynik Briera lub punktacja sferyczna. Często jednak nie udzielają zbyt wielu wskazówek na temat różnic między nimi. (Dowód A: Wikipedia .) Wybór modelu, który maksymalizuje wynik logarytmiczny, odpowiada wybraniu modelu największej wiarygodności, co wydaje …
Wprowadzenie: Mam zestaw danych z klasycznym „dużym problemem p, małym n”. Liczba dostępnych próbek n = 150, a liczba możliwych predyktorów p = 400. Wynik jest zmienną ciągłą. Chcę znaleźć najważniejsze „deskryptory”, tj. Te, które są najlepszymi kandydatami do wyjaśnienia wyniku i pomocy w zbudowaniu teorii. Po badaniach na ten …
Próbując wybrać spośród różnych modeli lub liczby funkcji do uwzględnienia, powiedzmy przewidywanie, że mogę wymyślić dwa podejścia. Podziel dane na zestawy szkoleniowe i testowe. Jeszcze lepiej, użyj ładowania początkowego lub krzyżowej weryfikacji K-fold. Trenuj na zestawie treningowym za każdym razem i oblicz błąd w stosunku do zestawu testowego. Błąd testu …
Jaka jest właściwość wyroczni estymatora? Dla jakich celów modelowania właściwość wyroczni jest istotna (predykcyjne, wyjaśniające, ...)? Mile widziane są zarówno teoretycznie rygorystyczne, jak i (szczególnie) intuicyjne wyjaśnienia.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.