Sekcja 1.7.2 odkrywania statystyk za pomocą R autorstwa Andy Fieldsa i innych, wymieniając zalety średniej i mediany, stwierdza:
... średnia jest stabilna w różnych próbkach.
Wyjaśnia to wiele zalet mediany, np
... Na medianę nie mają wpływu ekstremalne wyniki na obu końcach rozkładu ...
Biorąc pod uwagę fakt, że na medianę nie mają wpływu ekstremalne wyniki, pomyślałbym, że jest bardziej stabilny w próbkach. Zaskoczyło mnie więc twierdzenie autorów. Aby potwierdzić, przeprowadziłem symulację - wygenerowałem 1M liczb losowych i pobrałem próbkę 100 liczb 1000 razy, obliczyłem średnią i medianę każdej próbki, a następnie obliczyłem sd tych średnich próbek i median.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Jak widać, środki są bardziej ściśle rozłożone niż mediany.
Na załączonym obrazku czerwony histogram jest dla median - jak widać, jest on mniejszy i ma grubszy ogon, co również potwierdza twierdzenie autora.
Jestem tym zaskoczony! W jaki sposób mediana, która jest bardziej stabilna, może ostatecznie różnić się bardziej w zależności od próbki? Wydaje się to paradoksalne! Wszelkie spostrzeżenia będą mile widziane.
rnorm
z rcauchy
.