Statystyki i duże zbiory danych mean

1

Czy możemy użyć pominięcia jednej średniej i standardowego odchylenia, aby ujawnić wartości odstające?

Załóżmy, że normalnie rozpowszechniłem dane. Dla każdego elementu danych chcę sprawdzić, ile SD jest oddalonych od średniej. Dane mogą zawierać wartości odstające (prawdopodobnie tylko jeden, ale mogą być również dwa lub trzy) lub nie, ale ta wartość odstająca jest zasadniczo tym, czego szukam. Czy sensowne jest tymczasowe wykluczenie elementu, na …

17 cross-validation standard-deviation mean outliers

3

Maksymalna wartość współczynnika zmienności dla ograniczonego zestawu danych

W dyskusji po ostatnim pytaniu o to, czy odchylenie standardowe może przekroczyć średnią, krótko postawiono jedno pytanie, ale nigdy w pełni nie udzielono odpowiedzi. Więc pytam o to tutaj. Rozważ zestaw nnn nieujemnych liczb xixix_i gdzie 0≤xi≤c0≤xi≤c0 \leq x_i \leq c dla . Nie jest wymagane, aby były odrębne, to …

17 variance mean standard-deviation coefficient-of-variation

5

Czy średnia zmiennej jednowymiarowej jest zawsze równa całce jej funkcji kwantylowej?

Właśnie zauważyłem, że całkowanie funkcji kwantylowej zmiennej losowej jednowymiarowej (odwrotny cdf) od p = 0 do p = 1 daje średnią zmiennej. Do tej pory nie słyszałem o tym związku, więc zastanawiam się: czy tak jest zawsze? Jeśli tak, to czy związek ten jest powszechnie znany? Oto przykład w pythonie: …

17 mean pdf quantile-function

7

Czy mediana jest bardziej sprawiedliwa niż średnia?

Niedawno przeczytałem radę, że powinieneś raczej używać mediany, a nie oznaczać eliminacji wartości odstających. Przykład: następujący artykuł http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ ma w tej chwili 16 opinii: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean …

17 mean median average

2

Jak obliczyć średnią długość przylegania do wegetarianizmu, gdy mamy tylko dane ankietowe na temat aktualnych wegetarian?

Badano losową próbę populacji. Zapytano ich, czy jedzą dietę wegetariańską. Jeśli odpowiedzieli „tak”, poproszono ich również o określenie, jak długo bez przerwy je dietę wegetariańską. Chcę wykorzystać te dane do obliczenia średniej długości przestrzegania zasady wegetarianizmu. Innymi słowy, kiedy ktoś zostaje wegetarianinem, chcę wiedzieć, że średnio długo pozostaje wegetarianinem. Załóżmy, …

16 survival mean missing-data survey weighted-mean

5

Co oznacza „rzeczywista” suma wariancji?

Jestem statystą noob, więc proszę, pomóżcie mi tutaj. Moje pytanie brzmi: co właściwie oznacza łączna wariancja ? Kiedy szukam formuły dla wariancji zbiorczej w Internecie, znajduję dużo literatury przy użyciu następującej formuły (na przykład tutaj: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistic_Tests/thispage/newnode19.html ): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - …

15 variance mean pooling

1

Czy powinienem używać testu t na mocno wypaczonych danych? Dowód naukowy, proszę?

Mam próbki z mocno wypaczonego (wyglądającego jak rozkład wykładniczy) zestawu danych o udziale użytkowników (np. Liczba postów), które mają różne rozmiary (ale nie mniej niż 200) i chcę porównać ich średnią. W tym celu używam dwóch prób niesparowanych testów t (i testów t ze współczynnikiem Welcha, gdy próbki miały różne …

15 hypothesis-testing t-test nonparametric mean skewness

1

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

9

Czy odchylenie standardowe danych nieujemnych może przekroczyć średnią?

Mam kilka trójkątnych siatek 3D. Statystyki dla obszarów trójkąta to: Min. 0,000 Maks. 2341.141 Średni 56,317 Std dev 98,720 Czy to oznacza coś szczególnie przydatnego w odchyleniu standardowym, czy sugeruje, że istnieją błędy w jego obliczaniu, gdy liczby działają tak jak powyżej? Obszary z pewnością są dalekie od normalnej dystrybucji. …

15 distributions mean standard-deviation

3

Tor zderzeniowy w solidnym szacowaniu średniej

Mam kilka (około 1000) oszacowań i wszystkie one mają być oszacowaniami długoterminowej elastyczności. Nieco ponad połowa z nich jest szacowana za pomocą metody A, a reszta za pomocą metody B. Gdzieś czytam coś w stylu „Myślę, że metoda B ocenia coś zupełnie innego niż metoda A, ponieważ szacunki są znacznie …

15 mean outliers robust references

1

Przekształć dane w pożądaną średnią i odchylenie standardowe

Szukam metody przekształcenia mojego zestawu danych z jego bieżącej średniej i standardowego odchylenia do docelowej średniej i docelowego standardowego odchylenia. Zasadniczo chcę zmniejszyć / rozszerzyć dyspersję i przeskalować wszystkie liczby do średniej. To nie działa, aby wykonać dwie oddzielne transformacje liniowe, jedną dla odchylenia standardowego, a drugą dla średniej. Jakiej …

15 data-transformation standard-deviation mean

1

Jak nazywa się średnia z największych i najmniejszych wartości w danym zbiorze danych?

Co nazywacie średnią statystyczną obliczaną na podstawie górnych i dolnych krańcowych wartości w dowolnym zestawie danych? Na przykład, jeśli masz zestaw: { -2, 0 , 8, 9, 1, 50, -2, 6} Górna skrajność tego zestawu jest, 50a dolna skrajność jest -2. Tak więc średnia skrajności byłaby(-2 + 50 / 2) …

14 mean terminology average range

1

Caret glmnet vs cv.glmnet

Wydaje się, że istnieje wiele zamieszania w porównaniu używania glmnetwewnątrz w caretcelu znalezienia optymalnej lambdy i korzystania cv.glmnetz tego samego zadania. Zadano wiele pytań, np .: Model klasyfikacji train.glmnet vs. cv.glmnet? Jaki jest właściwy sposób używania glmnet z karetką? Cross-validation `glmnet` za pomocą` caret` ale nie udzielono odpowiedzi, co może …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

Przedział ufności dla średniej geometrycznej

Czy w tytule jest coś takiego? Wiem, jak obliczyć CI dla średniej arytmetycznej, ale co ze średnią geometryczną? Dzięki.

14 confidence-interval mean

4

Czy należy stosować średnią, gdy dane są wypaczone?

Często wprowadzane teksty statystyki statystycznej odróżniają średnią od mediany (często w kontekście statystyki opisowej i motywując do podsumowania tendencji centralnej za pomocą średniej, mediany i trybu), wyjaśniając, że średnia jest wrażliwa na wartości odstające w danych próbki i / lub do wypaczonych rozkładów populacji, co służy uzasadnieniu twierdzenia, że mediana …

14 mean skewness median winsorizing central-tendency

Pytania otagowane jako mean