Statystyki i duże zbiory danych ranks

4

Co to są powiązane dane w kontekście współczynnika korelacji rang?

Nie jestem w dziedzinie statystyki. Podczas czytania o współczynnikach korelacji rang widziałem słowo „powiązane dane”. Co to są powiązane dane? Jaki jest przykład powiązanych danych?

16 correlation nonparametric ranks

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

2

Dlaczego test U Manna – Whitneya jest istotny, gdy mediany są równe?

Otrzymałem wyniki z testu rangi Manna-Whitneya, którego nie rozumiem. Mediana dwóch populacji jest identyczna (6,9). Górne i dolne kwantyle każdej populacji to: 6,64 i 7,2 6,60 i 7,1 Wartość p wynikająca z testu porównującego te populacje wynosi 0,007. Jak te populacje mogą się znacznie różnić? Czy wynika to z rozprzestrzeniania …

15 nonparametric median ranks wilcoxon-mann-whitney

1

Caret glmnet vs cv.glmnet

Wydaje się, że istnieje wiele zamieszania w porównaniu używania glmnetwewnątrz w caretcelu znalezienia optymalnej lambdy i korzystania cv.glmnetz tego samego zadania. Zadano wiele pytań, np .: Model klasyfikacji train.glmnet vs. cv.glmnet? Jaki jest właściwy sposób używania glmnet z karetką? Cross-validation `glmnet` za pomocą` caret` ale nie udzielono odpowiedzi, co może …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Wyświetlanie danych porządkowych - środki, mediany i średnie stopnie

Mam pewne dane porządkowe, które zwykle nie są dystrybuowane, więc postanowiłem przeprowadzić testy nieparametryczne przy użyciu testu U Manna-Whitneya. Patrzę na różnice między grupami dla siedmiu wyników - te wyniki to 0, 1, 2 lub 3 dla każdego przedmiotu. Trudno mi znaleźć sposób na wyświetlenie moich danych! Jeśli przedstawię dane …

11 spss mean wilcoxon-mann-whitney ranks presentation

1

Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?

Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Dlaczego korelacja rang Pearsona jest ważna pomimo założenia normalności?

Obecnie czytam założenia dotyczące korelacji Pearsona. Ważnym założeniem dla następującego testu t wydaje się, że obie zmienne pochodzą z rozkładów normalnych; jeśli nie, to zaleca się stosowanie alternatywnych środków, takich jak rho Spearmana. Korelacja Spearmana jest obliczana jak korelacja Pearsona, przy użyciu tylko rang X i Y zamiast samych X …

9 correlation normality-assumption spearman-rho ranks

Pytania otagowane jako ranks