Pytania otagowane jako cross-validation

Wielokrotnie wstrzymywanie podzbiorów danych podczas dopasowywania modelu w celu kwantyfikacji wydajności modelu na wstrzymanych podzbiorach danych.


1
Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


4
Czy istnieje sposób wykorzystania krzyżowej weryfikacji do dokonania wyboru zmiennej / cechy w R?
Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne są najczęściej wybierane (nie eliminowane). …


1
Krzyżowa walidacja regresji lasso w R
Funkcja R cv.glm (biblioteka: boot) oblicza szacowany błąd prognozy krotności K-krotności dla uogólnionych modeli liniowych i zwraca deltę. Czy warto używać tej funkcji do regresji lasso (biblioteka: glmnet), a jeśli tak, to w jaki sposób można ją przeprowadzić? Biblioteka glmnet używa weryfikacji krzyżowej, aby uzyskać najlepszy parametr zwrotny, ale nie …

2
Zagnieżdżona walidacja krzyżowa - czym różni się od wyboru modelu poprzez CV Kfold na zestawie treningowym?
Często widzę ludzi mówiących o walidacji krzyżowej 5x2 jako szczególnym przypadku walidacji krzyżowej zagnieżdżonej . Zakładam, że pierwsza liczba (tutaj: 5) odnosi się do liczby fałd w wewnętrznej pętli, a druga liczba (tutaj: 2) odnosi się do liczby fałd w zewnętrznej pętli? Czym zatem różni się to od „tradycyjnego” podejścia …

2
Wdrożenie zagnieżdżonej weryfikacji krzyżowej
Próbuję dowiedzieć się, czy moje rozumienie zagnieżdżonej weryfikacji krzyżowej jest prawidłowe, dlatego napisałem ten zabawkowy przykład, aby sprawdzić, czy mam rację: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset …

4
Model historii zdarzeń dyskretnych (przeżycie) w R.
Próbuję dopasować model czasu dyskretnego do R, ale nie jestem pewien, jak to zrobić. Czytałem, że możesz zorganizować zmienną zależną w różnych wierszach, po jednym dla każdej obserwacji czasu, i użyć glmfunkcji z łączem logit lub cloglog. W tym sensie, mam trzy kolumny: ID, Event(1 lub 0, w każdym okresie …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
Krzyżowa walidacja GAM w celu przetestowania błędu prognozowania
Moje pytania dotyczą GAM w pakiecie mgcv R. Ze względu na niewielki rozmiar próbki chcę określić błąd prognozy za pomocą weryfikacji krzyżowej z pominięciem jednego z nich. Czy to rozsądne? Czy istnieje pakiet lub kod, jak to zrobić? errorest()Funkcja w IPRED pakietu nie działa. Prosty testowy zestaw danych to: library(mgcv) …
10 r  cross-validation  gam  mgcv 

1
Obliczanie przedziałów predykcji podczas korzystania z weryfikacji krzyżowej
Czy szacunkowe odchylenia standardowe są obliczane za pomocą: sN.=1N.∑N.i = 1(xja-x¯¯¯)2)-------------√.sN.=1N.∑ja=1N.(xja-x¯)2). s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) dla dokładności prognoz z 10-krotnej walidacji krzyżowej? Obawiam się, że dokładność prognozy obliczana między poszczególnymi zakładkami zależy od znacznego nakładania się zestawów treningowych (chociaż zestawy prognoz są niezależne). Wszelkie …

2
Jak symulować wyniki na wielu odmianach w R?
W większości sytuacji mamy do czynienia tylko z jedną zmienną wynik / odpowiedź, taką jak y= a + b x + ϵy=a+bx+ϵy = a + bx +\epsilon. Jednak w niektórych scenariuszach, szczególnie w danych klinicznych, zmienne wynikowe mogą być wielowymiarowe / wielowymiarowe. Jak na przykładY=βx+ϵY=βx+ϵ\mathsf{Y} = \beta{x} + \mathsf{\epsilon}, gdzie …

2
AUC w porządkowej regresji logistycznej
Używam 2 rodzajów regresji logistycznej - jeden jest typem prostym do klasyfikacji binarnej, a drugi to porządkowa regresja logistyczna. Do obliczenia dokładności pierwszego użyłem walidacji krzyżowej, w której obliczyłem AUC dla każdego krotności, a następnie obliczyłem średnią AUC. Jak mogę to zrobić dla porządkowej regresji logistycznej? Słyszałem o uogólnionym ROC …



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.