Statystyki i duże zbiory danych normality-assumption

2

Czy gdzieś w naturze widzimy kształt krzywej normalnej?

Nie chcę wiedzieć, czy niektóre zjawiska w przyrodzie mają rozkład normalny, ale czy możemy gdzieś zobaczyć kształt krzywej normalnej, tak jak na przykład w polu Galtona. Zobacz ten rysunek z Wikipedii. Należy zauważyć, że wiele matematycznych kształtów lub krzywych jest bezpośrednio widocznych w przyrodzie, na przykład złoty środek i spirala …

20 distributions normality-assumption

4

Transformacja w celu zwiększenia kurtozy i skośności normalnego rv

Pracuję nad algorytmem, który opiera się na fakcie, że obserwacje są normalnie rozłożone, i chciałbym empirycznie przetestować odporność algorytmu na to założenie.YYY Aby to zrobić, szukałem sekwencji przemian , które stopniowo zakłócić normalność . Na przykład, jeśli są normalne, mają skośność i kurtozę , i byłoby miło znaleźć sekwencję transformacji, …

20 data-transformation normality-assumption skewness kurtosis

4

Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?

Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

3

Przykład rozkładu, w którym potrzebna jest duża wielkość próby dla centralnego twierdzenia o granicy

Niektóre książki podają, że próbka o rozmiarze 30 lub większym jest konieczna, aby centralne twierdzenie graniczne dawało dobre przybliżenie dla . X¯X¯\bar{X} Wiem, że to nie wystarczy dla wszystkich dystrybucji. Chciałbym zobaczyć kilka przykładów rozkładów, w których nawet przy dużej wielkości próbki (być może 100, 1000 lub więcej) rozkład średniej …

19 mean sample-size normality-assumption central-limit-theorem

2

Jak sprawdzić różnice między dwiema grupami oznacza, że dane nie są normalnie dystrybuowane?

Wyeliminuję wszystkie szczegóły biologiczne i eksperymenty i przytoczę tylko problem i to, co zrobiłem statystycznie. Chciałbym wiedzieć, czy ma rację, a jeśli nie, jak postępować. Jeśli dane (lub moje wyjaśnienie) nie są wystarczająco jasne, postaram się lepiej wyjaśnić, edytując. Załóżmy, że mam dwie grupy / obserwacje, X i Y, o …

19 hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem

4

Jaka jest podstawa definicji wartości odstającej w polu i wąsach?

Standardowa definicja wartości odstającej dla wykresu Box i Whisker to punkty spoza zakresu , gdzie I Q R = Q 3 - Q 1 i Q 1 to pierwszy kwartyl i Q 3 to trzeci kwartyl danych.{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 Jaka jest podstawa tej definicji? Przy dużej liczbie punktów nawet idealnie normalny …

17 outliers normality-assumption qq-plot boxplot

1

Dlaczego zakładamy, że błąd jest zwykle dystrybuowany?

Zastanawiam się, dlaczego używamy założenia Gaussa podczas modelowania błędu. Na kursie ML Stanforda prof. Ng opisuje to zasadniczo na dwa sposoby: Jest to matematycznie wygodne. (Jest to związane z dopasowaniem najmniejszych kwadratów i łatwe do rozwiązania za pomocą pseudoinwersji) Ze względu na centralne twierdzenie graniczne możemy założyć, że istnieje wiele …

17 regression normality-assumption pac-learning

2

Dlaczego test F jest tak wrażliwy na założenie normalności?

Dlaczego test F dla różnicy wariancji jest tak wrażliwy na założenie rozkładu normalnego, nawet dla dużego ?NNN Próbowałem przeszukać sieć i odwiedziłem bibliotekę, ale żadna z nich nie dała dobrych odpowiedzi. Mówi, że test jest bardzo wrażliwy na naruszenie założenia normalnej dystrybucji, ale nie rozumiem dlaczego. Czy ktoś ma na …

16 normality-assumption f-test

5

W jaki sposób rozkład próbkowania w próbkach oznacza przybliżoną średnią dla populacji?

Próbuję nauczyć się statystyki, ponieważ uważam, że jest tak powszechna, że zabrania mi uczenia się niektórych rzeczy, jeśli nie rozumiem jej poprawnie. Mam problem ze zrozumieniem tego pojęcia rozkładu próbkowania średnich próbek. Nie rozumiem, w jaki sposób niektóre książki i strony to wyjaśniły. Myślę, że rozumiem, ale nie jestem pewien, …

16 distributions normal-distribution sampling normality-assumption

2

Powtarzane miary ANOVA: jakie jest założenie normalności?

Jestem zdezorientowany co do założenia normalności w ANOVA z powtarzanymi pomiarami. W szczególności zastanawiam się, jaki rodzaj normalności powinien być dokładnie spełniony. Czytając literaturę i odpowiedzi na CV, natrafiłem na trzy różne sformułowania tego założenia. Zmienna zależna w ramach każdego (powtarzanego) warunku powinna być rozłożona normalnie. Często mówi się, że …

15 anova repeated-measures assumptions normality-assumption

1

R: testuj normalność reszt modelu liniowego - jakich reszt użyć

Chciałbym wykonać test W Shapiro Wilka i test Kołmogorowa-Smirnowa na resztkach modelu liniowego w celu sprawdzenia normalności. Zastanawiałem się tylko, jakie resztki powinny być do tego użyte - surowe resztki, resztki Pearsona, resztki studenckie czy resztki standaryzowane? Dla testu W Shapiro-Wilka wydaje się, że wyniki dla reszt surowych i Pearsona …

13 r regression residuals normality-assumption lm

1

Pakiet GBM vs. Caret korzystający z GBM

Stroiłem model przy użyciu caret, ale potem ponownie uruchomiłem model przy użyciu gbmpakietu. Rozumiem, że caretpakiet używa gbmi wynik powinien być taki sam. Jednak tylko szybki test przy użyciu data(iris)wykazuje rozbieżność w modelu około 5% przy użyciu RMSE i R ^ 2 jako metryki oceny. Chcę znaleźć optymalną wydajność modelu …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

Odejście od założenia normalności w ANOVA: czy kurtoza lub skośność są ważniejsze?

Zastosowane liniowe modele statystyczne Kutnera i in. stwierdza, co do odstępstw od założenia normalności modeli ANOVA: Kurtoza rozkładu błędów (mniej lub bardziej pikowany niż rozkład normalny) jest ważniejsza niż skośność rozkładu pod względem wpływu na wnioskowanie . Jestem nieco zdziwiony tym stwierdzeniem i nie udało mi się znaleźć żadnych powiązanych …

12 anova normality-assumption skewness kurtosis

1

Dlaczego nie zawsze używać elementów CI bootstrap?

Zastanawiałem się, jak CI bootstrap (i BCa w układzie dwubiegunowym) działają na normalnie dystrybuowanych danych. Wydaje się, że dużo pracy analizuje ich wydajność w różnych typach dystrybucji, ale nie można znaleźć niczego w normalnie dystrybuowanych danych. Ponieważ najpierw wydaje się rzeczą oczywistą studiowanie, przypuszczam, że dokumenty są po prostu za …

12 confidence-interval bootstrap normality-assumption resampling

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

Pytania otagowane jako normality-assumption