Statystyki i duże zbiory danych sample

25

Lokalizowanie swobodnie dostępnych próbek danych

Pracowałem nad nową metodą analizy i analizy zestawów danych w celu identyfikacji i izolacji podgrup populacji bez uprzedniej wiedzy o cechach podgrup. Chociaż metoda działa wystarczająco dobrze ze sztucznymi próbkami danych (tj. Zestawami danych utworzonymi specjalnie w celu identyfikacji i segregacji podzbiorów populacji), chciałbym spróbować przetestować ją z danymi na …

98 dataset sample population teaching

5

Jaka jest różnica między populacją a próbą?

Jaka jest różnica między populacją a próbą? Jakie wspólne zmienne i statystyki są używane dla każdej z nich i jak się one ze sobą wiążą?

38 standard-deviation variance sample population

3

R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

Co jeśli twoja losowa próbka nie jest wyraźnie reprezentatywna?

Co się stanie, jeśli weźmiesz losową próbkę i zobaczysz, że nie jest ona reprezentatywna, jak w ostatnim pytaniu . Na przykład, co jeśli rozkład populacji ma być symetryczny wokół zera, a losowana próbka ma niezrównoważone obserwacje dodatnie i ujemne, a brak równowagi jest statystycznie znaczący, gdzie to Cię pozostawia? Jakie …

28 sampling experiment-design inference sample

1

Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

Jak dowiedzieć się, jaki rodzaj dystrybucji reprezentuje te dane w czasach odpowiedzi ping?

Próbowałem procesu z rzeczywistego świata, czasy pingów w sieci. „Czas podróży w obie strony” jest mierzony w milisekundach. Wyniki wykreślono na histogramie: Czasy pingowania mają minimalną wartość, ale długi górny ogon. Chcę wiedzieć, co to jest rozkład statystyczny i jak oszacować jego parametry. Mimo że rozkład nie jest rozkładem normalnym, …

22 distributions sample-size sample normality-assumption distribution-identification

2

Jaka jest różnica między wariancją próbki a wariancją pobierania próbek?

Jaka jest różnica między wariancją próbki a wariancją pobierania próbek? Wydają się takie same. Prawda?

15 sampling variance sample

3

Bootstrap: problem nadmiernego dopasowania

Załóżmy, że wykonuje się tak zwany nieparametryczny bootstrap, pobierając próbki BBB o wielkości nnn każda z oryginalnych nnn obserwacji z zastąpieniem. Uważam, że ta procedura jest równoważna z oszacowaniem skumulowanej funkcji rozkładu przez empiryczny plik cdf: http://en.wikipedia.org/wiki/Empirical_distribution_function a następnie uzyskanie próbek bootstrap poprzez symulację obserwacji z szacowanych czasów cdf z …

14 bootstrap sample-size sample small-sample finite-population

3

Używasz średniej długości i średniej masy do obliczenia średniego BMI?

Czy prawidłowe jest zastosowanie średniej długości ( ) i średniej masy ( )) z danej populacji do obliczenia średniego wskaźnika ( ) dla tej populacji?hhhwwwB M.ja= wh2)BMI=wh2BMI = \frac{w}{h^2}

13 mean sample population

4

Czy jakakolwiek właściwość ilościowa populacji jest „parametrem”?

Stosunkowo znam rozróżnienie między terminami statystyki i parametru. Widzę statystykę jako wartość uzyskaną z zastosowania funkcji do przykładowych danych. Jednak większość przykładów parametrów dotyczy definiowania rozkładu parametrycznego. Typowym przykładem jest średnia i odchylenie standardowe do parametryzacji rozkładu normalnego lub współczynników i wariancji błędu do parametryzacji regresji liniowej. Istnieje jednak wiele …

13 estimation terminology sample population

1

Duża próba asymptotyczna / teoria - po co się tym przejmować?

Mam nadzieję, że to pytanie nie zostanie oznaczone jako „zbyt ogólne” i mam nadzieję, że rozpocznie się dyskusja, która przyniesie korzyści wszystkim. W statystykach poświęcamy dużo czasu na naukę teorii dużych próbek. Jesteśmy głęboko zainteresowani oceną asymptotycznych właściwości naszych estymatorów, w tym tego, czy są one asymptotycznie bezstronne, asymptotycznie wydajne, …

13 sample asymptotics

1

LARS vs zejście współrzędnych dla lasso

Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Jaka jest różnica między zmienną losową a losową próbką?

Te dwa wyrażenia bardzo mnie pomieszały, kiedy uczyłem się statystyki. Wydaje mi się, że są to zupełnie różne rzeczy. Losowa próbka jest losowo pobrać próbkę z populacji, podczas gdy zmienna losowa jest jak funkcja, która odwzorowuje zbiór wszystkich możliwych wyników eksperymentu do liczby rzeczywistej. Powiedzmy jednak, że jeśli jakieś próbki …

13 mathematical-statistics random-variable terminology sample

2

Czy konkursy Kaggle są po prostu wygrane przez przypadek?

Zawody Kaggle określają końcowe rankingi na podstawie ustalonego zestawu testów. Wyciągnięty zestaw testowy jest próbką; może nie być reprezentatywny dla modelowanej populacji. Ponieważ każde zgłoszenie jest jak hipoteza, algorytm, który wygrał konkurencję, może po prostu przypadkiem dopasować zestaw testowy lepiej niż inne. Innymi słowy, gdyby wybrano inny zestaw testów i …

12 machine-learning probability hypothesis-testing sample kaggle

Pytania otagowane jako sample