Istnieje wiele odpowiedzi na to pytanie. Oto jeden, którego prawdopodobnie nie zobaczysz nigdzie indziej, więc zamieszczam go tutaj, ponieważ uważam, że jest to związane z tym tematem. Ludzie często wierzą, że ponieważ mediana jest uważana za solidny środek w odniesieniu do wartości odstających, jest również skuteczny dla większości wszystkiego. W rzeczywistości jest również uważany za odporny na odchylenie w przekrzywionych rozkładach. Te dwie solidne właściwości mediany są często nauczane razem. Można zauważyć, że leżące u podstaw wypaczone rozkłady również generują małe próbki, które wyglądają, jakby miały wartości odstające, a tradycyjną mądrością jest to, że w takich sytuacjach stosuje się mediany.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(tylko demonstracja, że jest to przekrzywiony i podstawowy kształt)
hist(rexg(1e4, 0, 1, 1))
Zobaczmy teraz, co się stanie, jeśli spróbujemy z tego rozkładu różnych wielkości próby i obliczymy medianę i chcemy zobaczyć, jakie są między nimi różnice.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Jak widać z powyższego wykresu, mediana (na czerwono) jest znacznie bardziej wrażliwa na n niż na średnią. Jest to sprzeczne z pewną konwencjonalną mądrością dotyczącą korzystania z median o niskiej wartości ns, szczególnie jeśli rozkład może być wypaczony. Potwierdza to, że średnia jest znaną wartością, podczas gdy mediana jest wrażliwa na inne właściwości, z których jedną jest n.
Ta analiza jest podobna do Miller, J. (1988). Ostrzeżenie o medianie czasu reakcji. Journal of Experimental Psychology: Percepcja i wydajność człowieka , 14 (3): 539–543.
REWIZJA
Zastanawiając się nad kwestią pochylenia, pomyślałem, że wpływ na medianę może być po prostu dlatego, że w małych próbkach masz większe prawdopodobieństwo, że mediana jest na końcu rozkładu, podczas gdy średnia prawie zawsze będzie ważona wartościami bliższymi tryb. Dlatego, być może, gdyby ktoś tylko pobierał próbki z prawdopodobieństwem wartości odstających, to być może pojawiliby się te same wyniki.
Pomyślałem więc o sytuacjach, w których mogą wystąpić wartości odstające, a eksperymentatorzy mogą spróbować je wyeliminować.
Jeśli wartości odstające występowały konsekwentnie, na przykład jeden na każde próbkowanie danych, wówczas mediany są odporne na wpływ tej wartości odstającej i konwencjonalnej historii o stosowaniu median.
Ale zwykle tak nie jest.
Można znaleźć wartość odstającą w bardzo niewielu komórkach eksperymentu i zdecydować się na użycie mediany zamiast średniej w tym przypadku. Ponownie, mediana jest mocniejsza, ale jej rzeczywisty wpływ jest stosunkowo niewielki, ponieważ jest bardzo mało wartości odstających. Byłby to zdecydowanie częstszy przypadek niż powyższy, ale efekt zastosowania mediany byłby prawdopodobnie tak mały, że nie miałby większego znaczenia.
Być może częściej wartości odstające mogą być losowym składnikiem danych. Na przykład prawdziwa średnia i standardowe odchylenie populacji może wynosić około 0, ale istnieje procent czasu, w którym pobieramy próbki z populacji odstającej, gdzie średnia wynosi 3. Rozważ następującą symulację, w której tylko taka populacja jest pobierana, zmieniając próbkę rozmiar.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
Mediana jest w kolorze czerwonym, a średnia w kolorze czarnym. Jest to podobne odkrycie do wypaczonej dystrybucji.
W stosunkowo praktycznym przykładzie zastosowania median w celu uniknięcia skutków wartości odstających można wymyślić sytuacje, w których na oszacowanie wpływa n znacznie bardziej, gdy stosuje się medianę niż gdy stosuje się średnią.