Pytania otagowane jako sample

Próbka to podzbiór populacji. Statystyka ogólnie dotyczy wykorzystywania próbek do wnioskowania o parametrach rządzących większą (prawdopodobnie nieskończoną) populacją.

25
Lokalizowanie swobodnie dostępnych próbek danych
Pracowałem nad nową metodą analizy i analizy zestawów danych w celu identyfikacji i izolacji podgrup populacji bez uprzedniej wiedzy o cechach podgrup. Chociaż metoda działa wystarczająco dobrze ze sztucznymi próbkami danych (tj. Zestawami danych utworzonymi specjalnie w celu identyfikacji i segregacji podzbiorów populacji), chciałbym spróbować przetestować ją z danymi na …


3
R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …


1
Obliczanie powtarzalności efektów z modelu Lmer
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Czy stopnie swobody mogą być liczbą niecałkowitą?
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
Jak dowiedzieć się, jaki rodzaj dystrybucji reprezentuje te dane w czasach odpowiedzi ping?
Próbowałem procesu z rzeczywistego świata, czasy pingów w sieci. „Czas podróży w obie strony” jest mierzony w milisekundach. Wyniki wykreślono na histogramie: Czasy pingowania mają minimalną wartość, ale długi górny ogon. Chcę wiedzieć, co to jest rozkład statystyczny i jak oszacować jego parametry. Mimo że rozkład nie jest rozkładem normalnym, …


3
Bootstrap: problem nadmiernego dopasowania
Załóżmy, że wykonuje się tak zwany nieparametryczny bootstrap, pobierając próbki BBB o wielkości nnn każda z oryginalnych nnn obserwacji z zastąpieniem. Uważam, że ta procedura jest równoważna z oszacowaniem skumulowanej funkcji rozkładu przez empiryczny plik cdf: http://en.wikipedia.org/wiki/Empirical_distribution_function a następnie uzyskanie próbek bootstrap poprzez symulację obserwacji z szacowanych czasów cdf z …


4
Czy jakakolwiek właściwość ilościowa populacji jest „parametrem”?
Stosunkowo znam rozróżnienie między terminami statystyki i parametru. Widzę statystykę jako wartość uzyskaną z zastosowania funkcji do przykładowych danych. Jednak większość przykładów parametrów dotyczy definiowania rozkładu parametrycznego. Typowym przykładem jest średnia i odchylenie standardowe do parametryzacji rozkładu normalnego lub współczynników i wariancji błędu do parametryzacji regresji liniowej. Istnieje jednak wiele …

1
Duża próba asymptotyczna / teoria - po co się tym przejmować?
Mam nadzieję, że to pytanie nie zostanie oznaczone jako „zbyt ogólne” i mam nadzieję, że rozpocznie się dyskusja, która przyniesie korzyści wszystkim. W statystykach poświęcamy dużo czasu na naukę teorii dużych próbek. Jesteśmy głęboko zainteresowani oceną asymptotycznych właściwości naszych estymatorów, w tym tego, czy są one asymptotycznie bezstronne, asymptotycznie wydajne, …

1
LARS vs zejście współrzędnych dla lasso
Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …

2
Jaka jest różnica między zmienną losową a losową próbką?
Te dwa wyrażenia bardzo mnie pomieszały, kiedy uczyłem się statystyki. Wydaje mi się, że są to zupełnie różne rzeczy. Losowa próbka jest losowo pobrać próbkę z populacji, podczas gdy zmienna losowa jest jak funkcja, która odwzorowuje zbiór wszystkich możliwych wyników eksperymentu do liczby rzeczywistej. Powiedzmy jednak, że jeśli jakieś próbki …

2
Czy konkursy Kaggle są po prostu wygrane przez przypadek?
Zawody Kaggle określają końcowe rankingi na podstawie ustalonego zestawu testów. Wyciągnięty zestaw testowy jest próbką; może nie być reprezentatywny dla modelowanej populacji. Ponieważ każde zgłoszenie jest jak hipoteza, algorytm, który wygrał konkurencję, może po prostu przypadkiem dopasować zestaw testowy lepiej niż inne. Innymi słowy, gdyby wybrano inny zestaw testów i …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.