Statystyki i duże zbiory danych model-selection

1

Odpowiedni pozostały stopień swobody po usunięciu warunków z modelu

Zastanawiam się nad dyskusją wokół tego pytania, aw szczególności z komentarzem Franka Harrella, że oszacowanie wariancji w modelu zredukowanym (tj. Takim, z którego przetestowano i odrzucono wiele zmiennych objaśniających) powinno wykorzystywać ogólny stopień wolności Ye . Profesor Harrell podkreśla, że będzie to znacznie bliższe pozostałym stopniom swobody oryginalnego „pełnego” modelu …

27 r regression model-selection regression-strategies

3

Czy AIC może porównywać różne typy modeli?

Używam AIC (Akaike's Information Criterion) do porównywania modeli nieliniowych w R. Czy warto porównywać AIC różnych typów modeli? Konkretnie porównuję model dopasowany przez glm do modelu z terminem efektu losowego dopasowanego przez glmer (lme4). Jeśli nie, to czy można dokonać takiego porównania? A może pomysł jest całkowicie nieważny?

27 lme4-nlme model-selection aic

4

Jak mierzyć / oceniać „zmienne znaczenie” podczas korzystania z CART? (konkretnie używając {rpart} z R)

Podczas budowania modelu CART (w szczególności drzewa klasyfikacji) przy użyciu rpart (w R) często interesujące jest wiedzieć, jakie znaczenie mają różne zmienne wprowadzone do modelu. Tak więc moje pytanie brzmi: jakie wspólne miary istnieją dla uszeregowania / pomiaru znaczenia zmiennych uczestniczących zmiennych w modelu CART? I jak można to obliczyć …

27 r classification model-selection cart rpart

3

Wymagania wstępne dla porównania modeli AIC

Jakie dokładnie warunki należy spełnić, aby porównanie modeli AIC zadziałało? Właśnie natrafiłem na to pytanie, kiedy porównałem to: > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 W ten sposób uzasadniłem logtransformację zmiennej usili. Ale nie wiem, czy mogę …

26 regression model-selection aic model-comparison nested-models

4

Rozwiązanie problemu niepewności modelu

Zastanawiałem się, jak Bayesianie ze społeczności CrossValidated postrzegają problem niepewności modelu i jak wolą sobie z tym poradzić? Postaram się zadać pytanie w dwóch częściach: Jak ważne (według twojego doświadczenia / opinii) jest radzenie sobie z niepewnością modelu? Nie znalazłem żadnych artykułów na ten temat w społeczności uczącej się maszynowo, …

25 machine-learning bayesian model-selection

5

Jaka jest zaleta traktowania czynnika jako losowego w modelu mieszanym?

Mam problem z uznaniem korzyści oznaczania czynnika modelowego za losowy z kilku powodów. Wydaje mi się, że prawie we wszystkich przypadkach optymalnym rozwiązaniem jest traktowanie wszystkich czynników jako ustalonych. Po pierwsze, rozróżnienie między ustalonym a losowym jest dość arbitralne. Standardowe wyjaśnienie jest takie, że jeśli ktoś interesuje się konkretnymi jednostkami …

24 model-selection random-effects-model aic fixed-effects-model mixed-model

4

Czy masz globalną wizję tych technik analizy?

Obecnie pracuję nad projektem, w którym zasadniczo potrzebuję, podobnie jak wszyscy, aby zrozumieć, w jaki sposób wyjście jest powiązane z wejściem . Szczególną cechą jest to, że dane są mi przekazywane pojedynczo, dlatego chcę aktualizować swoją analizę za każdym razem, gdy otrzymuję nowy . Wierzę, że nazywa się to przetwarzaniem …

24 modeling model-selection

2

Stabilność tematu w modelach tematycznych

Pracuję nad projektem, w którym chcę wyodrębnić trochę informacji o zawartości serii esejów otwartych. W tym konkretnym projekcie 148 osób napisało eseje o hipotetycznej organizacji studenckiej w ramach większego eksperymentu. Chociaż w mojej dziedzinie (psychologia społeczna) typowym sposobem analizy tych danych byłoby ręczne kodowanie esejów, chciałbym to zrobić ilościowo, ponieważ …

23 machine-learning model-selection small-sample topic-models dirichlet-process

3

AIC a walidacja krzyżowa w szeregach czasowych: przypadek małej próbki

Interesuje mnie wybór modelu w ustawieniach szeregów czasowych. Dla konkretności załóżmy, że chcę wybrać model ARMA z puli modeli ARMA o różnych rzędach opóźnień. Ostatecznym celem jest prognozowanie . Wyboru modelu można dokonać za pomocą krzyżowa walidacja, stosowanie kryteriów informacyjnych (AIC, BIC), wśród innych metod. Rob J. Hyndman zapewnia sposób …

23 time-series forecasting cross-validation model-selection aic

2

Dlaczego dowód Wilksa z 1938 r. Nie działa na źle określone modele?

W słynnym artykule z 1938 r. („ Rozkład dużych próbek dla wskaźnika prawdopodobieństwa do testowania hipotez złożonych ”, Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks wyprowadził asymptotyczny rozkład (iloraz ) dla hipotez zagnieżdżonych, przy założeniu, że większa hipoteza jest poprawnie określona. Rozkład ograniczającym jest (Chi-kwadrat) w stopniach swobody, gdzie …

23 hypothesis-testing model-selection likelihood-ratio asymptotics misspecification

4

Kiedy mają zastosowanie wyniki Shao dotyczące krzyżowej walidacji z pominięciem jednego z nich?

W swoim artykule Linear Model Selection by Cross-Validation Jun Shao pokazuje, że w przypadku problemu selekcji zmiennych w wielowymiarowej regresji liniowej metoda walidacji krzyżowej z pominięciem jednego elementu (LOOCV) jest „asymptotycznie niespójna”. W prostym języku angielskim ma tendencję do wybierania modeli ze zbyt wieloma zmiennymi. W badaniu symulacyjnym Shao pokazuje, …

23 classification model-selection cross-validation

1

Wybór spośród właściwych zasad punktacji

Większość zasobów na temat prawidłowych reguł punktowania wymienia szereg różnych zasad punktacji, takich jak utrata logów, wynik Briera lub punktacja sferyczna. Często jednak nie udzielają zbyt wielu wskazówek na temat różnic między nimi. (Dowód A: Wikipedia .) Wybór modelu, który maksymalizuje wynik logarytmiczny, odpowiada wybraniu modelu największej wiarygodności, co wydaje …

22 machine-learning classification model-selection theory scoring-rules

3

Stabilność modelu w przypadku dużego problemu , małego

Wprowadzenie: Mam zestaw danych z klasycznym „dużym problemem p, małym n”. Liczba dostępnych próbek n = 150, a liczba możliwych predyktorów p = 400. Wynik jest zmienną ciągłą. Chcę znaleźć najważniejsze „deskryptory”, tj. Te, które są najlepszymi kandydatami do wyjaśnienia wyniku i pomocy w zbudowaniu teorii. Po badaniach na ten …

22 regression cross-validation model-selection feature-selection elastic-net

2

Najlepsze podejście do wyboru modelu Bayesian czy walidacja krzyżowa?

Próbując wybrać spośród różnych modeli lub liczby funkcji do uwzględnienia, powiedzmy przewidywanie, że mogę wymyślić dwa podejścia. Podziel dane na zestawy szkoleniowe i testowe. Jeszcze lepiej, użyj ładowania początkowego lub krzyżowej weryfikacji K-fold. Trenuj na zestawie treningowym za każdym razem i oblicz błąd w stosunku do zestawu testowego. Błąd testu …

22 bayesian model-selection cross-validation feature-selection

2

Jaka jest właściwość wyroczni estymatora?

Jaka jest właściwość wyroczni estymatora? Dla jakich celów modelowania właściwość wyroczni jest istotna (predykcyjne, wyjaśniające, ...)? Mile widziane są zarówno teoretycznie rygorystyczne, jak i (szczególnie) intuicyjne wyjaśnienia.

22 feature-selection model-selection estimators oracle

Pytania otagowane jako model-selection