Statystyki i duże zbiory danych cross-validation

5

Jak decydujesz, jaki jest twój pociąg, walidacja i procent testów?

Podczas podziału moich oznaczonych danych na zestawy szkoleniowe, walidacyjne i testowe słyszałem wszystko od 50/25/25 do 85/5/10. Jestem pewien, że zależy to od tego, w jaki sposób zamierzasz używać swojego modelu i od tego, jak podatna jest na nadmierne dopasowanie algorytmu uczenia się. Czy istnieje sposób, aby zdecydować, czy to …

10 machine-learning cross-validation

1

Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?

Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Stabilność modelu w walidacji krzyżowej modeli regresji

Biorąc pod uwagę wielokrotne sprawdzanie poprawności krzyżowej regresji logistycznej i wynikające z niej wielokrotne oszacowania każdego współczynnika regresji, w jaki sposób należy zmierzyć, czy predyktor (lub zestaw predyktorów) jest / są stabilne i znaczące na podstawie współczynników regresji ? Czy jest inaczej w przypadku regresji liniowej?

10 regression model-selection cross-validation

4

Czy istnieje sposób wykorzystania krzyżowej weryfikacji do dokonania wyboru zmiennej / cechy w R?

Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne są najczęściej wybierane (nie eliminowane). …

10 r cross-validation feature-selection random-forest stepwise-regression

3

Dobra literatura na temat walidacji krzyżowej

Czy ktoś zna dobrą książkę / stronę internetową, aby zacząć uczyć się technik krzyżowej weryfikacji?

10 references cross-validation

1

Krzyżowa walidacja regresji lasso w R

Funkcja R cv.glm (biblioteka: boot) oblicza szacowany błąd prognozy krotności K-krotności dla uogólnionych modeli liniowych i zwraca deltę. Czy warto używać tej funkcji do regresji lasso (biblioteka: glmnet), a jeśli tak, to w jaki sposób można ją przeprowadzić? Biblioteka glmnet używa weryfikacji krzyżowej, aby uzyskać najlepszy parametr zwrotny, ale nie …

10 r regression cross-validation lasso glmnet

2

Zagnieżdżona walidacja krzyżowa - czym różni się od wyboru modelu poprzez CV Kfold na zestawie treningowym?

Często widzę ludzi mówiących o walidacji krzyżowej 5x2 jako szczególnym przypadku walidacji krzyżowej zagnieżdżonej . Zakładam, że pierwsza liczba (tutaj: 5) odnosi się do liczby fałd w wewnętrznej pętli, a druga liczba (tutaj: 2) odnosi się do liczby fałd w zewnętrznej pętli? Czym zatem różni się to od „tradycyjnego” podejścia …

10 machine-learning cross-validation hyperparameter

2

Wdrożenie zagnieżdżonej weryfikacji krzyżowej

Próbuję dowiedzieć się, czy moje rozumienie zagnieżdżonej weryfikacji krzyżowej jest prawidłowe, dlatego napisałem ten zabawkowy przykład, aby sprawdzić, czy mam rację: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset …

10 cross-validation python scikit-learn

4

Model historii zdarzeń dyskretnych (przeżycie) w R.

Próbuję dopasować model czasu dyskretnego do R, ale nie jestem pewien, jak to zrobić. Czytałem, że możesz zorganizować zmienną zależną w różnych wierszach, po jednym dla każdej obserwacji czasu, i użyć glmfunkcji z łączem logit lub cloglog. W tym sensie, mam trzy kolumny: ID, Event(1 lub 0, w każdym okresie …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

Krzyżowa walidacja GAM w celu przetestowania błędu prognozowania

Moje pytania dotyczą GAM w pakiecie mgcv R. Ze względu na niewielki rozmiar próbki chcę określić błąd prognozy za pomocą weryfikacji krzyżowej z pominięciem jednego z nich. Czy to rozsądne? Czy istnieje pakiet lub kod, jak to zrobić? errorest()Funkcja w IPRED pakietu nie działa. Prosty testowy zestaw danych to: library(mgcv) …

10 r cross-validation gam mgcv

1

Obliczanie przedziałów predykcji podczas korzystania z weryfikacji krzyżowej

Czy szacunkowe odchylenia standardowe są obliczane za pomocą: sN.=1N.∑N.i = 1(xja-x¯¯¯)2)-------------√.sN.=1N.∑ja=1N.(xja-x¯)2). s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) dla dokładności prognoz z 10-krotnej walidacji krzyżowej? Obawiam się, że dokładność prognozy obliczana między poszczególnymi zakładkami zależy od znacznego nakładania się zestawów treningowych (chociaż zestawy prognoz są niezależne). Wszelkie …

10 confidence-interval cross-validation prediction prediction-interval

2

Jak symulować wyniki na wielu odmianach w R?

W większości sytuacji mamy do czynienia tylko z jedną zmienną wynik / odpowiedź, taką jak y= a + b x + ϵy=a+bx+ϵy = a + bx +\epsilon. Jednak w niektórych scenariuszach, szczególnie w danych klinicznych, zmienne wynikowe mogą być wielowymiarowe / wielowymiarowe. Jak na przykładY=βx+ϵY=βx+ϵ\mathsf{Y} = \beta{x} + \mathsf{\epsilon}, gdzie …

10 r cross-validation

2

AUC w porządkowej regresji logistycznej

Używam 2 rodzajów regresji logistycznej - jeden jest typem prostym do klasyfikacji binarnej, a drugi to porządkowa regresja logistyczna. Do obliczenia dokładności pierwszego użyłem walidacji krzyżowej, w której obliczyłem AUC dla każdego krotności, a następnie obliczyłem średnią AUC. Jak mogę to zrobić dla porządkowej regresji logistycznej? Słyszałem o uogólnionym ROC …

10 logistic cross-validation roc auc ordered-logit

1

Jak generować krzywe ROC do weryfikacji krzyżowej z pominięciem jednego z nich?

Podczas przeprowadzania 5-krotnej walidacji krzyżowej (na przykład) typowe jest obliczanie osobnej krzywej ROC dla każdej z 5 krotności i często pomnożenie średniej krzywej ROC ze std. dev. pokazane jako grubość krzywej. Jednak w przypadku walidacji krzyżowej LOO, w której w każdym folderze jest tylko jeden testowy punkt danych, obliczenie „krzywej” …

10 cross-validation roc

2

Czy RMSE i MAE mogą mieć tę samą wartość?

Wdrażam weryfikację krzyżową i obliczanie wskaźników błędów, takich jak RMSE, , MAE, MSE itp.R2R2R^2 Czy RMSE i MAE mogą mieć tę samą wartość?

9 cross-validation rms mae

Pytania otagowane jako cross-validation