Statystyki i duże zbiory danych model-selection

3

AIC lub wartość p: który wybrać do wyboru modelu?

Jestem zupełnie nowy w tej kwestii R, ale nie jestem pewien, który model wybrać. Zrobiłem stopniowe naprzód regresji wybranie każdej zmiennej opartej na najniższym AIC. Wymyśliłem 3 modele, które nie jestem pewien, który jest „najlepszy”. Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 …

22 model-selection aic stepwise-regression

3

Przeanalizuj wykresy ACF i PACF

Chcę sprawdzić, czy jestem na dobrej drodze, analizując moje wykresy ACF i PACF: Tło: (Reff: Philip Hans Franses, 1998) Ponieważ zarówno ACF, jak i PACF wykazują znaczące wartości, zakładam, że model ARMA spełni moje potrzeby ACF można wykorzystać do oszacowania części MA, tj. Wartości q, PACF można wykorzystać do oszacowania …

21 time-series model-selection arma statsmodels

1

Wybór modelu z regresją logistyczną Firtha

W małym zestawie danych ( ), z którym pracuję, kilka zmiennych daje mi idealne przewidywanie / separację . Dlatego do rozwiązania tego problemu używam regresji logistycznej Firtha .n ∼ 100n∼100n\sim100 Jeżeli wybiorę najlepszy model według AIC lub BIC , czy powinienem uwzględnić prawdopodobieństwo kary Firth przy obliczaniu tych kryteriów informacyjnych?

21 logistic model-selection aic separation

2

Cross Validation (generalizacja błędów) po wyborze modelu

Uwaga: przypadek to n >> p Czytam Elementy uczenia statystycznego i jest wiele wzmianek o „właściwym” sposobie przeprowadzania walidacji krzyżowej (np. Strona 60, strona 245). W szczególności moje pytanie brzmi: jak ocenić ostateczny model (bez osobnego zestawu testowego) za pomocą k-fold CV lub bootstrapowania, gdy przeprowadzono wyszukiwanie modelu? Wydaje się, …

21 machine-learning model-selection data-mining cross-validation

4

Jak rzutować nowy wektor na przestrzeń PCA?

Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

6

Kiedy upuścić termin z modelu regresji?

Czy ktoś może doradzić, czy następujące działania mają sens: Mam do czynienia ze zwykłym modelem liniowym z 4 predyktorami. Zastanawiam się, czy porzucić najmniej znaczący termin. Jego wartość wynosi nieco ponad 0,05. Opowiedziałem się za upuszczeniem go według następujących zasad: Pomnożenie oszacowania tego terminu przez (na przykład) zakres międzykwartylowy danych …

20 regression model-selection

4

Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?

Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Czy regularyzacja może być pomocna, jeśli interesuje nas tylko modelowanie, a nie prognozowanie?

Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem? Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale co, jeśli robisz tradycyjną ekonomię, a wszystko, na czym ci zależy, to szacowanie …

19 cross-validation econometrics model-selection interpretation regularization

2

Jak wybrać strukturę efektów losowych i stałych w liniowych modelach mieszanych?

Rozważ następujące dane z dwustronnego projektowania przedmiotów: df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 6 …

19 mixed-model repeated-measures model-selection lme4-nlme likelihood-ratio

7

Miary złożoności modelu

Jak możemy porównać złożoność dwóch modeli o tej samej liczbie parametrów? Edytuj 09/19 : Aby wyjaśnić, złożoność modelu jest miarą tego, jak trudno jest uczyć się na podstawie ograniczonych danych. Gdy dwa modele równie dobrze pasują do istniejących danych, model o mniejszej złożoności da mniejszy błąd w przyszłych danych. Gdy …

19 model-selection

1

Paradoks w wyborze modelu (AIC, BIC, aby wyjaśnić lub przewidzieć?)

Po przeczytaniu książki Galit Shmueli „Wyjaśnić lub przewidzieć” (2010) zastanawia mnie pozorna sprzeczność. Istnieją trzy przesłanki, AIC - wybór modelu na podstawie BIC (koniec str. 300 - początek str. 301): po prostu, AIC powinien być używany do wybierania modelu przeznaczonego do przewidywania, podczas gdy BIC powinien być używany do wybierania …

18 forecasting model-selection feature-selection aic bic

4

Określanie najlepszej funkcji dopasowania krzywej spośród funkcji liniowych, wykładniczych i logarytmicznych

Kontekst: Z pytania dotyczącego wymiany stosów matematycznych (czy mogę zbudować program) , ktoś ma zestaw punktów i chce dopasować do niego krzywą, liniową, wykładniczą lub logarytmiczną. Zwykłą metodą jest rozpoczęcie od wybrania jednego z nich (który określa model), a następnie wykonanie obliczeń statystycznych.x - yx-yx-y Ale tak naprawdę potrzebne jest …

18 regression predictive-models model-selection curve-fitting

3

ROC vs Krzywe precyzji przywoływania w niezrównoważonym zbiorze danych

Właśnie skończyłem czytać tę dyskusję. Twierdzą, że PR AUC jest lepszy niż ROC AUC w niezrównoważonym zbiorze danych. Na przykład mamy 10 próbek w zestawie danych testowych. 9 próbek jest pozytywnych, a 1 ujemna. Mamy okropny model, który przewiduje wszystko pozytywnie. Będziemy zatem mieć miarę, że TP = 9, FP …

18 machine-learning model-selection roc unbalanced-classes precision-recall

1

Czy BIC próbuje znaleźć prawdziwy model?

To pytanie jest kontynuacją lub próbą wyjaśnienia możliwych nieporozumień dotyczących tematu, który ja i wiele innych osób uważam za nieco trudny, jeśli chodzi o różnicę między AIC i BIC. W bardzo ładnej odpowiedzi @Dave Kellen na ten temat ( /stats//a/767/30589 ) czytamy: Twoje pytanie sugeruje, że AIC i BIC próbują …

17 model-selection aic bic

3

Budowanie i wybór modelu za pomocą Hosmer i in. 2013. Zastosowana regresja logistyczna w R

To jest mój pierwszy post na StackExchange, ale od dłuższego czasu używam go jako zasobu, zrobię co w mojej mocy, aby użyć odpowiedniego formatu i wprowadzić odpowiednie zmiany. Jest to również pytanie wieloczęściowe. Nie byłem pewien, czy powinienem podzielić pytanie na kilka różnych postów, czy tylko na jeden. Ponieważ wszystkie …

17 r logistic model-selection regression-strategies

Pytania otagowane jako model-selection