W danych skośnych po lewej stronie jaki jest związek między średnią a medianą?


12

Myślę, że mediana oznacza.

Czy tak jest w przypadku?


2
Który to otwarty kurs MOOC? Jakie materiały sugerują odpowiedź na to pytanie?
Glen_b


1
Dzięki, to przynajmniej jakiś kontekst, chociaż pozostały tylko cotygodniowe odczyty, które nie rzucają zbyt wiele światła na ten problem. Zastanawiam się, co kurs miał do powiedzenia na ten temat.
Glen_b

Odpowiedzi:


16

To nietrywialne pytanie (z pewnością nie tak trywialne, jak się wydaje, że ludzie zadający to pytanie).

Trudność jest ostatecznie spowodowana faktem, że tak naprawdę nie wiemy, co rozumiemy przez „skośność” - przez większość czasu jest to dość oczywiste, ale czasami tak naprawdę nie jest. Biorąc pod uwagę trudność w określeniu, co rozumiemy przez „lokalizację” i „rozprzestrzenianie się” w nietrywialnych przypadkach (na przykład średnia nie zawsze ma na myśli to, co mówimy o lokalizacji), nie powinno dziwić, że bardziej subtelne koncepcja jak skośność jest co najmniej tak samo śliska. To prowadzi nas do wypróbowania różnych algebraicznych definicji tego, co mamy na myśli, i nie zawsze się ze sobą zgadzają.

μμ

3)(μ-μ)σ,
μ<μ

Przykładowe wersje tych statystyk działają podobnie.

Przyczyną koniecznego związku między średnią a medianą w tym przypadku jest to, że tak definiuje się miarę skośności.

Oto gęstość przekrzywiona w lewo (zarówno przez drugą miarę Pearsona, jak i bardziej powszechną miarę w (2) poniżej):

wprowadź opis zdjęcia tutaj

Mediana jest zaznaczona na dolnym marginesie na zielono, średnia na czerwono.

Oczekuję więc, że odpowiedzią, którą chcą dać, jest to, że średnia jest mniejsza niż mediana. Zwykle dzieje się tak w przypadku rodzajów dystrybucji, którym zwykle nadamy nazwy.

(Ale czytaj dalej i zobacz, dlaczego tak naprawdę nie jest to poprawne stwierdzenie ogólne).


2) Jeśli zmierzysz go według bardziej znormalizowanego trzeciego momentu , wówczas często, ale w żadnym wypadku nie zawsze, jest tak, że średnia będzie mniejsza niż mediana.

Oznacza to, że możliwe jest skonstruowanie przykładów, w których prawda jest odwrotna lub gdzie jedna miara skośności wynosi zero, a druga jest niezerowa.

To znaczy, nie ma koniecznego związku między lokalizacjami średniej, mediany i skośności momentu.

Rozważmy na przykład następującą próbkę (ten sam przykład można skonstruować jako dyskretny rozkład prawdopodobieństwa):

  2.7 15.0 15.0 15.0 30.0 30.0

mean: 17.95
median: 15

Jednak współczynnik skośności (Fishera, moment trzeci) jest ujemny (tzn. Ze względu na jego światła mamy dane skośne w lewo), ponieważ suma kostek odchyleń od średniej jest ujemna.

Więc w takim przypadku odchylenie w lewo, ale oznacza> medianę.

(Z drugiej strony, jeśli zmienisz 2.7 w powyższym przykładzie na 3, to masz przykład, w którym skośność momentu wynosi zero, ale średnia przekracza medianę. Jeśli osiągniesz 3.3, skośność momentu jest dodatnia , a średnia przekracza medianę - tj. ostatecznie jest w kierunku „oczekiwanym”).

Jeśli użyjesz pierwszego skosu Pearsona zamiast jednej z powyższych definicji, masz podobny problem do tego przypadku - kierunek skosu nie określa relacji między średnią a medianą w ogóle.


Edycja: w odpowiedzi na pytanie w komentarzach - przykład, w którym średnia i mediana są równe, ale skośność momentu jest ujemna. Rozważ następujące dane (jak poprzednio, liczy się to również jako przykład dla dyskretnej populacji; rozważ zapisanie liczb na powierzchniach kości).

 1  5  6  6  8 10

zarówno średnia, jak i mediana wynoszą 6, ale suma kostek odchyleń od średniej jest ujemna, więc skośność w trzecim momencie jest ujemna.


1
@ Peter Przepraszam za powolną odpowiedź, byłem zajęty budowaniem takich przykładów i nie widziałem twojego pytania.
Glen_b

2
Widziałem wiele definicji podręczników i nikt o tym nie wspominał. Chłodny.
Peter Flom - Przywróć Monikę

6
@Peter Niestety, wiele podstawowych podręczników po prostu powtarza niepoprawne informacje z innych podręczników, nie przeprowadzając prawdziwego dochodzenia, a zatem rozpowszechnia się podstawowe nieporozumienie. Kontrprzykłady są, jak widać, stosunkowo łatwe do zbudowania (w razie potrzeby wykonuję je ręcznie). Kendall i Stuart ( Zaawansowana teoria statystyki, tom I - nie zniechęcajcie się tytułem, jest całkiem czytelny), przynajmniej trzecia i czwarta edycja, mają dobre informacje. Nowsze wydania są autorstwa Stuarta i Orda. O tym problemie pisałem już wielokrotnie w CV.
Glen_b

4
(5k)0,8k0.25-k(5k)0.2k0,85-k=

1
@Nick Tak, dwumianowe z liczbą całkowitą są świetnymi przykładami.
Glen_b

5

Nie. Dane przekrzywione w lewo mają długi ogon po lewej stronie (dolny koniec), więc średnia będzie zwykle mniejsza niż mediana. (Ale zobacz odpowiedź @Glen_b na wyjątek). Od niechcenia myślę, że dane, które „wyglądają” na przekrzywione, będą miały mniej niż medianę.

Prawidłowo wypaczone dane są bardziej powszechne; na przykład dochód. Tam średnia jest większa niż mediana.

Kod R.

set.seed(123)  #set random seed
normdata <- rnorm(1000) #Normal data, skew = 0
extleft <- c(rep(-10, 5), rep(-20, 5)) #Some data to make skew left
alldata <- c(normdata,extleft)

library(moments)
skewness(alldata) #-6.77
mean(alldata) #-0.13
median(alldata) #-0.001

Czy średnia może być kiedykolwiek równa medianie?
Kunjan Kshetri

unj2 Do mojej odpowiedzi dodałem przykład, w którym skośność w trzeciej chwili jest ujemna, ale średnia = mediana.
Glen_b
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.