W mojej pracy, gdy osoby odnoszą się do „średniej” wartości zbioru danych, zwykle odnoszą się do średniej arytmetycznej (tj. „Średniej” lub „wartości oczekiwanej”). Gdybym podał średnią geometryczną , ludzie prawdopodobnie pomyśleliby, że jestem złośliwy lub nieprzydatny, ponieważ definicja „środka” jest znana z góry.
Próbuję ustalić, czy istnieje wiele definicji „mediany” zestawu danych. Na przykład jedna z definicji podanych przez współpracownika w celu znalezienia mediany zbioru danych z parzystą liczbą elementów to:
Algorytm „A”
- Podziel liczbę elementów przez dwa, zaokrąglaj w dół.
- Ta wartość jest indeksem mediany.
- tzn. dla następującego zestawu mediana wynosiłaby
5
. [4, 5, 6, 7]
Wydaje się to mieć sens, choć zaokrąglanie w dół wydaje się nieco arbitralne.
Algorytm „B”
W każdym razie inny kolega zaproponował osobny algorytm, który znajdował się w jego podręczniku statystyk (trzeba uzyskać nazwisko i autora):
- Podziel liczbę elementów przez 2 i zachowaj kopię zaokrąglonych w górę i zaokrąglonych w dół liczb całkowitych. Nazwij je
n_lo
in_hi
. - Weź średnią arytmetyczną elementów w
n_lo
in_hi
. - tzn. dla następującego zestawu mediana wynosiłaby
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Wydaje się to błędne, ponieważ 5.5
w tym przypadku wartość mediany nie znajduje się w oryginalnym zestawie danych. Kiedy zamieniliśmy algorytm „A” na „B” w jakimś kodzie testowym, złamał się on okropnie (zgodnie z naszymi oczekiwaniami).
Pytanie
Czy istnieje formalna „nazwa” dla tych dwóch podejść do obliczania mediany zbioru danych? tj. „mediana mniejszej z dwóch” w porównaniu z „medianą średnich elementów i stworzyć nowe dane”?