Statystyki i duże zbiory danych median

8

Jeśli wredny jest tak wrażliwy, po co go używać?

Wiadomo, że mediana jest odporna na wartości odstające. Jeśli tak jest, kiedy i dlaczego mielibyśmy użyć tego środka w pierwszej kolejności? Jedną rzeczą, o której mogę pomyśleć, może być zrozumienie obecności wartości odstających, tj. Jeśli mediana jest daleka od średniej, wówczas rozkład jest wypaczony i być może dane muszą zostać …

84 mathematical-statistics mean median

5

Percentyl vs kwantyl vs kwartyl

Jaka jest różnica między trzema poniższymi terminami? percentyl kwantyl kwartyl

83 descriptive-statistics quantiles median percentage

5

Centralne twierdzenie graniczne dla przykładowych median

Jeśli obliczę medianę wystarczająco dużej liczby obserwacji pochodzących z tego samego rozkładu, to czy centralne twierdzenie graniczne stwierdza, że rozkład median będzie zbliżony do rozkładu normalnego? Rozumiem, że dotyczy to dużej liczby próbek, ale czy dotyczy to również median? Jeśli nie, jaki jest podstawowy rozkład przykładowych median?

54 normal-distribution mathematical-statistics sampling median central-limit-theorem

10

Jaki jest dobry algorytm do oszacowania mediany ogromnego zestawu danych do odczytu?

Szukam dobrego algorytmu (co oznacza minimalne obliczenia, minimalne wymagania dotyczące miejsca do przechowywania), aby oszacować medianę zestawu danych, który jest zbyt duży, aby go zapisać, tak aby każdą wartość można było odczytać tylko raz (chyba że jawnie zapiszesz tę wartość). Dane nie mają granic, które można założyć. Przybliżenia są w …

48 algorithms median large-data

13

Dlaczego średni wiek jest lepszą statystyką niż średni wiek?

Jeśli spojrzysz na Wolfram Alpha Lub ta strona w Wikipedii Lista krajów według mediany wieku Wyraźnie mediana wydaje się być statystyką wyboru, jeśli chodzi o wiek. Nie jestem w stanie wyjaśnić sobie, dlaczego średnia arytmetyczna byłaby gorszą statystyką. Dlaczego tak jest Pierwotnie opublikowane tutaj, ponieważ nie wiedziałem, że ta strona …

41 mean median

5

Przedział ufności dla mediany

Muszę znaleźć 95% CI na medianie i innych percentylach. Nie wiem jak do tego podejść. Głównie używam R jako narzędzia programistycznego.

40 r confidence-interval median

7

Czy istnieje przyjęta definicja mediany próbki na płaszczyźnie lub wyższych uporządkowanych przestrzeni?

Jeśli tak to co? Jeśli nie, dlaczego nie? W przypadku próbki w linii mediana minimalizuje całkowite odchylenie bezwzględne. Wydaje się naturalne, aby rozszerzyć definicję na R2 itp., Ale nigdy jej nie widziałem. Ale od dłuższego czasu jestem na lewym polu.

33 multivariate-analysis spatial median

3

Dlaczego podstawowe testowanie hipotez koncentruje się na średniej, a nie na środkowej?

Na podstawowych kursach statystyki poniżej stopnia uczniowie (zwykle?) Uczą się testowania hipotez dla średniej populacji. Dlaczego skupia się na średniej, a nie na środkowej? Domyślam się, że łatwiej jest przetestować średnią ze względu na centralne twierdzenie graniczne, ale chciałbym przeczytać kilka wykształconych wyjaśnień.

32 hypothesis-testing mean inference median

2

Czy istnieje wiarygodny nieparametryczny przedział ufności dla średniej przekrzywionego rozkładu?

Bardzo wypaczone rozkłady, takie jak log-normal, nie dają dokładnych przedziałów ufności ładowania. Oto przykład pokazujący, że lewy i prawy obszar ogona są dalekie od idealnego 0,025 bez względu na to, jaką metodę ładowania początkowego wypróbujesz w R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- …

30 confidence-interval nonparametric mean bootstrap median

2

Jak skonstruować 95% przedział ufności różnicy między medianami?

Mój problem: randomizowane badanie równoległe w grupie z bardzo skośnym rozkładem pierwotnego wyniku. Nie chcę zakładać normalności i używać opartych na normach 95% CI (tj. Używając 1,96 X SE). Bez problemu wyrażam miarę tendencji centralnej jako mediany, ale moje pytanie brzmi: jak skonstruować 95% CI różnicy w medianach między dwiema …

27 confidence-interval bootstrap median clinical-trials

4

Jak stwierdzić, czy moja dystrybucja danych jest symetryczna?

Wiem, że jeśli mediana i średnia są w przybliżeniu równe, oznacza to rozkład symetryczny, ale w tym konkretnym przypadku nie jestem pewien. Średnia i mediana są dość bliskie (różnica tylko 0,487 m / galon), co doprowadziłoby mnie do stwierdzenia, że istnieje rozkład symetryczny, ale patrząc na wykres pudełkowy, wygląda na …

23 distributions mean skewness median qq-plot

4

Dlaczego średnia jest bardziej stabilna w różnych próbkach niż mediana?

Sekcja 1.7.2 odkrywania statystyk za pomocą R autorstwa Andy Fieldsa i innych, wymieniając zalety średniej i mediany, stwierdza: ... średnia jest stabilna w różnych próbkach. Wyjaśnia to wiele zalet mediany, np ... Na medianę nie mają wpływu ekstremalne wyniki na obu końcach rozkładu ... Biorąc pod uwagę fakt, że na …

22 mean median

2

Czy można zgromadzić zestaw statystyk, które opisują dużą liczbę próbek, dzięki czemu mogę stworzyć wykres pudełkowy?

Muszę od razu wyjaśnić, że jestem praktykującym programistą, a nie statystykiem, a moja klasa statystyk z college'u była bardzo dawno temu… To powiedziawszy, chciałbym wiedzieć, czy istnieje metoda gromadzenia zestawu statystyk opisowych, które można by następnie wykorzystać do stworzenia wykresu pudełkowego, który nie pociąga za sobą przechowywania wielu pojedynczych próbek? …

22 algorithms median quantiles

1

Kiedy, jeśli kiedykolwiek, mediana statystyki jest wystarczającą statystyką?

Natknąłem się na uwagę w The Chemical Statistician, że mediana próbki może być często wyborem wystarczającej statystyki, ale poza oczywistym przypadkiem jednej lub dwóch obserwacji, w których jest równa średniej próbki, nie mogę wymyślić innej nietrywialnej i iid przypadek, w którym mediana próbki jest wystarczająca.

21 median exponential-family sufficient-statistics chemistry

4

Jak rzutować nowy wektor na przestrzeń PCA?

Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

Pytania otagowane jako median