Centralne twierdzenie graniczne dla przykładowych median

54

Jeśli obliczę medianę wystarczająco dużej liczby obserwacji pochodzących z tego samego rozkładu, to czy centralne twierdzenie graniczne stwierdza, że rozkład median będzie zbliżony do rozkładu normalnego? Rozumiem, że dotyczy to dużej liczby próbek, ale czy dotyczy to również median?

Jeśli nie, jaki jest podstawowy rozkład przykładowych median?

— użytkownik1728853
źródło

9

Potrzebujesz pewnych warunków regularności, aby mediana miała rozkład normalny podczas przeskalowywania w limicie. Aby zobaczyć, co może pójść nie tak, rozważ dowolny rozkład na skończoną liczbę punktów, powiedzmy

X

$X$ uniform na

{- 1, 0, 1}

$\{-1,0,1\}$ .

— kardynał

5

Odnośnie warunków prawidłowości: Jeśli rozkład podstawowy ma gęstość, która jest różnicowalna przy (prawdziwej) medianie, wówczas mediana próbki będzie miała asymptotyczny rozkład normalny z wariancją zależną od wspomnianej pochodnej. Dotyczy to bardziej ogólnie dowolnych kwantyli.

— kardynał

6

@ kardynał Uważam, że potrzebujesz dodatkowych warunków: gdy gęstość jest druga różniczkowalna, jest równa zeru na medianie i ma tam zerową pierwszą pochodną, wówczas asymptotyczny rozkład mediany próbki będzie bimodalny.

— whuber

4

@ whuber: Tak, ponieważ gęstość (a nie jej pochodna, jak mimowolnie stwierdziłem wcześniej) wchodzi w wariancję jako odwrotność, wartość gęstości w tym punkcie nie może wynosić zero. Przepraszamy za porzucenie tego stanu!

— kardynał

4

Elementarne kontrprzykłady można utworzyć za pomocą dowolnego rozkładu, który przypisuje prawdopodobieństwo

1 / 2

$1/2$ do przedziału

(- \infty, μ]

$(-\infty,\mu]$ i prawdopodobieństwo

1 / 2

$1/2$ do

[μ + δ, \infty)

$[\mu+\delta,\infty)$ gdzie

δ > 0,

$\delta\gt 0,$ przykład a Bernoulli

(1 / 2)

$(1/2)$ (

μ = 0, δ = 1

$\mu=0,\delta=1$ ). Przykładowe mediany będą mniejsze lub równe

μ

$\mu$ tak często, jak są większe lub równe

μ + δ

$\mu+\delta$ . Szansa, że mediana nie występuje

(μ, μ + δ)

$(\mu,\mu+\delta)$ zbliża się do

0

$0$ dla dużych próbek, skutecznie pozostawiając „lukę” w

(μ, μ + δ)

$(\mu,\mu+\delta)$ w ograniczającym rozkładzie - który oczywiście wtedy będzie nienormalny, bez względu na to, jak jest znormalizowany.

— whuber

38

Jeśli pracujesz w kategoriach zmiennych wskaźnikowych (tj. jeśli i przeciwnym razie), możesz bezpośrednio zastosować Twierdzenie o granicy środkowej do średniej , i używając metody Delta , zamień to w asymptotyczna rozkładu normalnego dla , co z kolei oznacza, że można uzyskać asymptotycznej normalność dla stałych kwantyli . $Z_i = 1$ $X_i \leq x$ $0$ $Z$ $F_X^{-1}(\bar{Z})$ $X$

Więc nie tylko mediana, ale kwartyle, 90 percentyle, ... itd.

Luźno, jeśli mówimy o kwantylu próbki w wystarczająco dużych próbkach, otrzymujemy, że będzie on miał w przybliżeniu rozkład normalny ze średnią kwantylem populacji i wariancją . $q$ $q$ $x_q$ $q(1-q)/(nf_X(x_q)^2)$

Zatem dla mediany ( ) wariancja w wystarczająco dużych próbkach wyniesie około . $q = 1/2$ $1/(4nf_X(\tilde{\mu})^2)$

Potrzebujesz oczywiście wszystkich warunków na drodze, aby nie działały we wszystkich sytuacjach, ale dla ciągłych rozkładów, w których gęstość kwantylu populacji jest dodatnia i zróżnicowana itp., ...

Co więcej, nie dotyczy ekstremalnych kwantyli, ponieważ CLT tam nie kopie (średnia Z nie będzie asymptotycznie normalna). Potrzebujesz różnych teorii dla ekstremalnych wartości.

Edycja: krytyka Whubera jest poprawna; działałoby to, gdyby był medianą populacji, a nie medianą próby. Argument musi zostać zmodyfikowany, aby faktycznie działał poprawnie. $x$

— Glen_b
źródło

5

Myślę, że może brakować jednego logicznego wyjaśnienia: jak dokładnie używa się wskaźników w celu uzyskania przykładowych median? Widzę, jak gdy jest podstawową medianą, wskaźnik będzie działał: ale ten wskaźnik nie pokrywa się z medianą próbki ani żadną jego funkcją.

x

$x$

X_{i} \leq x

$X_i\le x$

— whuber

Jak przejść od asymptotycznych rozkładów normalnych dla aby uzyskać asymptotyczną normalność dla stałych kwantyli X? Edycja: Rozumiem, że staje się wartością procentową 0-100%, więc wartości kwantylowe są asymptotycznie normalne

F_{X}^{- 1} (\bar{Z})

$F^{−1}_X (\overline{Z})$

\bar{Z}

$\overline{Z}$

— Adam

48

Kluczową ideą jest to, że rozkład próbkowania mediany jest prosty do wyrażenia w kategoriach funkcji rozkładu, ale bardziej skomplikowany do wyrażenia w kategoriach wartości mediany. Kiedy zrozumiemy, w jaki sposób funkcja rozkładu może ponownie wyrażać wartości jako prawdopodobieństwa i z powrotem, łatwo jest uzyskać dokładny rozkład próbkowania mediany. Konieczna jest niewielka analiza zachowania funkcji rozkładu w pobliżu jej mediany, aby wykazać, że jest to asymptotycznie normalne.

(Ta sama analiza działa dla rozkładu próbkowania dowolnego kwantyla, nie tylko mediany).

Nie będę się starał być rygorystyczny w tej prezentacji, ale wykonuję to w krokach, które są łatwo uzasadnione w rygorystyczny sposób, jeśli masz na to ochotę.

Intuicja

Oto migawki pudełka zawierającego 70 atomów gorącego gazu atomowego:

Rycina 1

Na każdym zdjęciu znalazłem lokalizację pokazaną jako czerwona pionowa linia, która dzieli atomy na dwie równe grupy między lewą (narysowaną jako czarne kropki) i prawą (białe kropki). Jest to mediana pozycji: 35 atomów leży po lewej, a 35 po prawej. Mediany zmieniają się, ponieważ atomy poruszają się losowo wokół pudełka.

Jesteśmy zainteresowani rozkładem tej środkowej pozycji. Odpowiedzi na to pytanie odwraca moja procedura: najpierw narysujmy gdzieś pionową linię, powiedzmy w miejscu . Jaka jest szansa, że połowa atomów będzie na lewo od a połowa na prawo? Atomy po lewej stronie indywidualnie miały szanse na lewo. Atomy po prawej stronie indywidualnie miały szanse na prawo. Zakładając, że ich pozycje są statystycznie niezależne, szanse się mnożą, dając szansę na tę konkretną konfigurację. Równoważną konfigurację można uzyskać dla innego podziału atomów na dwa $x$ $x$ $x$ $1-x$ $x^{35}(1-x)^{35}$ $70$ $35$ -elementy. Dodanie tych liczb do wszystkich możliwych takich podziałów daje szansę

Pr (x is a median) = C x^{n / 2} (1 - x)^{n / 2}

${\Pr}(x\text{ is a median}) = C x^{n/2} (1-x)^{n/2}$

gdzie jest całkowitą liczbą atomów, a jest proporcjonalne do liczby podziałów atomów na dwie równe podgrupy. $n$ $C$ $n$

Wzór ten określa rozkład mediany jako beta rozkład $(n/2+1, n/2+1)$ .

Rozważ teraz pudełko o bardziej skomplikowanym kształcie:

Rysunek 2

Ponownie mediany są różne. Ponieważ skrzynia jest nisko w pobliżu centrum, nie ma tam dużej objętości: niewielka zmiana objętości zajmowana przez lewą połowę atomów (czarne ponownie) - lub, równie dobrze, możemy przyznać, obszar z lewej strony, jak to pokazano na tych figurach - odpowiada stosunkowo dużą zmianę w pozycji poziomej mediany. W rzeczywistości, ponieważ obszar zajmowany przez małą poziomą część pudełka jest proporcjonalny do wysokości , zmiany w środkach są dzielone przez wysokość pudełka. To powoduje, że mediana jest bardziej zmienna dla tego pola niż dla pola kwadratowego, ponieważ ten jest o wiele niższy pośrodku.

Krótko mówiąc, kiedy mierzymy pozycję mediany pod względem powierzchni (po lewej i prawej stronie), pierwotna analiza (dla kwadratu) pozostaje niezmieniona. Kształt pudełka komplikuje rozkład tylko wtedy, gdy nalegamy na pomiar mediany pod względem jej położenia poziomego. Kiedy to robimy, związek między reprezentacją obszaru a pozycją jest odwrotnie proporcjonalny do wysokości pudełka.

Z tych zdjęć można dowiedzieć się więcej. Oczywiste jest, że gdy kilka atomów znajduje się w (którymkolwiek) polu, istnieje większa szansa, że połowa z nich może przypadkowo skończyć w klastrze daleko po obu stronach. Wraz ze wzrostem liczby atomów maleje potencjał tak ekstremalnej nierównowagi. Aby to wyśledzić, wziąłem „filmy” - długą serię 5000 klatek - dla zakrzywionego pudełka wypełnionego , potem , , a na końcu atomów, i zanotowałem mediany. Oto histogramy pozycji środkowych: $3$ $15$ $75$ $375$

Rycina 3

Oczywiście dla wystarczająco dużej liczby atomów rozkład ich środkowej pozycji zaczyna wyglądać w kształcie dzwonu i staje się węższy: to wygląda na wynik centralnego twierdzenia granicznego, prawda?

Wyniki ilościowe

„Pole” oczywiście przedstawia gęstość prawdopodobieństwa niektórych rozkładów: jego górna krawędź to wykres funkcji gęstości (PDF). Zatem obszary reprezentują prawdopodobieństwa. Umieszczanie punktów losowo i niezależnie w ramce i obserwowanie ich pozycji poziomych jest jednym ze sposobów narysowania próbki z rozkładu. (To jest idea próbkowania przy odrzuceniu ). $n$

Kolejny rysunek łączy te pomysły.

Rycina 4

To wygląda na skomplikowane, ale jest naprawdę bardzo proste. Istnieją tutaj cztery powiązane wątki:

Górny wykres pokazuje PDF rozkładu wraz z jedną losową próbką o rozmiarze . Wartości większe niż mediana są pokazane jako białe kropki; wartości mniejsze niż mediana jako czarne kropki. Nie potrzebuje skali pionowej, ponieważ wiemy, że całkowity obszar to jedność. $n$
Środkowy wykres jest funkcją rozkładu skumulowanego dla tego samego rozkładu: używa wysokości do oznaczenia prawdopodobieństwa. Dzieli swoją oś poziomą z pierwszym poletkiem. Jego oś pionowa musi wynosić od do ponieważ reprezentuje prawdopodobieństwa. $0$ $1$
Lewy wykres ma być czytany na boki: jest to PDF rozkładu Beta . Pokazuje, jak mediana w ramce będzie się zmieniać, gdy mediana jest mierzona w kategoriach obszarów po lewej i prawej stronie środka (zamiast mierzona przez jej położenie poziome). Narysowałem losowych punktów z tego pliku PDF, jak pokazano, i połączyłem je poziomymi liniami przerywanymi z odpowiednimi lokalizacjami na oryginalnym CDF: w ten sposób objętości (mierzone po lewej stronie) są konwertowane na pozycje (mierzone u góry, pośrodku i dolna grafika). Jeden z tych punktów faktycznie odpowiada medianie pokazanej na górnym wykresie; Narysowałem ciągłą pionową linię, aby to pokazać. $(n/2+1, n/2+1)$ $16$
Wykres dolny to gęstość próbkowania mediany, mierzona jego pozycją poziomą. Uzyskuje się to poprzez przekształcenie obszaru (na lewym wykresie) w pozycję. Formuła konwersji jest odwrotna do pierwotnego CDF: jest to po prostu definicja odwrotnego CDF! (Innymi słowy, CDF przekształca pozycję w obszar po lewej stronie; odwrotny CDF przekształca z powrotem do obszaru do położenia). Narysowałem pionowe linie przerywane pokazujące, w jaki sposób losowe punkty z lewego wykresu są konwertowane na losowe punkty w dolnym wykresie . Ten proces czytania w poprzek, a następnie w dół mówi nam, jak przejść z obszaru do miejsca.

Niech będzie CDF pierwotnego rozkładu (środkowy wykres), a CDF rozkładu Beta. Aby znaleźć szansę, że mediana leży na lewo od pewnej pozycji , najpierw użyj aby uzyskać pole po lewej stronie w polu: jest to sam . Rozkład Beta po lewej stronie mówi nam o szansie, że połowa atomów znajdzie się w tym tomie, dając : jest to CDF pozycji środkowej . Aby znaleźć jego plik PDF (jak pokazano na dolnym wykresie), weź pochodną: $F$ $G$ $x$ $F$ $x$ $F(x)$ $G(F(x))$

\frac{d}{d x} G (F (x)) = G^{'} (F (x)) F^{'} (x) = g (F (x)) f (x)

$\frac{d}{dx}G(F(x)) = G'(F(x))F'(x) = g(F(x))f(x)$

gdzie to PDF (górny wykres), a to Beta PDF (lewy wykres). $f$ $g$

Jest to dokładny wzór na rozkład mediany dla dowolnego ciągłego rozkładu. (Z pewną ostrożnością przy interpretacji można go zastosować do dowolnej dystrybucji, ciągłej lub nie.)

Wyniki asymptotyczne

Kiedy jest bardzo duże, a nie ma skoku na swojej medianie, mediana próbki musi się bardzo różnić wokół rzeczywistej mediany . Zakładając również, że PDF jest ciągły w pobliżu , w powyższej formule nie zmieni się znacznie od jego wartości w podanej przez Co więcej, również nie zmieni się znacznie ze swojej wartości: na pierwsze zamówienie, $n$ $F$ $\mu$ $f$ $\mu$ $f(x)$ $\mu,$ $f(\mu).$ $F$

F (x) = F (μ + (x - μ)) \approx F (μ) + F^{'} (μ) (x - μ) = 1 / 2 + f (μ) (x - μ) .

$F(x) = F\left(\mu + (x-\mu)\right) \approx F(\mu) + F^\prime(\mu)(x-\mu) = 1/2 + f(\mu)(x-\mu).$

Zatem przy coraz lepszym przybliżeniu, gdy rośnie, $n$

g (F (x)) f (x) \approx g (1 / 2 + f (μ) (x - μ)) f (μ) .

$g(F(x))f(x) \approx g\left(1/2 + f(\mu)(x-\mu)\right) f(\mu).$

Jest to jedynie zmiana lokalizacji i skali dystrybucji wersji beta. Przeskalowanie przez podzieli jego wariancję przez (które lepiej być niezerowe!). Nawiasem mówiąc, wariancja Beta jest bardzo bliska . $f(\mu)$ $f(\mu)^2$ $(n/2+1, n/2+1)$ $n/4$

Ta analiza może być postrzegana jako zastosowanie metody Delta .

Wreszcie Beta jest w przybliżeniu Normalna dla dużych . Jest na to wiele sposobów; być może najprościej jest spojrzeć na logarytm jego pliku PDF w pobliżu : $(n/2+1, n/2+1)$ $n$ $1/2$

\log (C (1 / 2 + x)^{n / 2} (1 / 2 - x)^{n / 2}) = \frac{n}{2} \log (1 - 4 x^{2}) + C^{'} = C^{'} - 2 n x^{2} + O (x^{4}) .

$\log\left(C(1/2 + x)^{n/2}(1/2-x)^{n/2}\right) = \frac{n}{2}\log\left(1-4x^2\right) + C' = C'-2nx^2 +O(x^4).$

(Stałe i normalizują jedynie całkowity obszar do jedności.) W przypadku trzeciego rzędu w jest to to samo, co dziennik normalnego PDF z wariancją (Argument ten jest bardziej rygorystyczny przy użyciu charakterystycznych lub kumulatywnych funkcji generujących zamiast dziennika pliku PDF.) $C$ $C'$ $x,$ $1/(4n).$

Podsumowując, dochodzimy do wniosku

Rozkład mediany próbki ma wariancję około , $1/(4 n f(\mu)^2)$
i jest w przybliżeniu Normalny dla dużego , $n$
wszystko pod warunkiem, że PDF jest ciągły i niezerowy przy medianie $f$ $\mu.$

— Whuber
źródło

Podoba mi się ta czwarta postać. Zrobiłeś to używając R?

— EngrStudent

@Engr Prawdopodobnie mógłbym zrobić coś podobnego w R, być może przy użyciu layout, ale w rzeczywistości zrobiono to z Mathematica 9.

— Whuber

1

„To piękna.

— EngrStudent

@ whuber czy to nie Beta (n / 2 + 1, n / 2 + 1) w wersji Beta (1,1) wcześniej? Patrz np. Ine.pt/revstat/pdf/rs080204.pdf

— Tim

1

@Tim Nie rozumiem znaczenia odniesienia do wcześniejszego, ale doceniam, że zwracasz uwagę, że poprawna nazwa dystrybucji Beta zidentyfikowana w sekcji „Intuicja” to Beta . Naprawię to, gdziekolwiek się pojawi (co jest w kilku miejscach dyskusji).

(n / 2 + 1, n / 2 + 1)

$(n/2+1,n/2+1)$

— whuber

18

@EngrStudent pouczająca odpowiedź mówi nam, że powinniśmy spodziewać się różnych wyników, gdy rozkład jest ciągły , a gdy jest dyskretny (wykresy „czerwone”, w których asymptotyczny rozkład mediany próbki nie wygląda spektakularnie normalnie, odpowiada rozkładom Dwumianowy (3), geometryczny (11), hipergeometryczny (12), ujemny dwumianowy (14), Poissona (18), dyskretny jednolity (22).

I rzeczywiście tak jest. Kiedy rozkład jest dyskretny, sprawy się komplikują. Dostarczę dowód na Absolutnie Ciągłą Sprawę, w zasadzie robiąc nic więcej, niż szczegółowo opisując odpowiedź udzieloną już przez @Glen_b, a następnie omówię trochę, co dzieje się, gdy dystrybucja jest dyskretna, podając również najnowsze informacje dla każdego zainteresowanego nurkowaniem w.

ABSOLUTNIE CIĄGŁA DYSTRYBUCJA
Rozważmy zbiór absolutnie ciągłych zmiennych losowych iid z funkcją dystrybucji (cdf) i funkcją gęstości . Zdefiniuj gdzie jest funkcją wskaźnika. Dlatego jest rv Bernoulliego, gdzie $\{X_1,...X_n\}$ $F_X(x) = P(X_i\le x)$ $F'_X(x)=f_X(x)$ $Z_i\equiv I\{X_i\le x\}$ $I\{\}$ $Z_i$

E (Z_{i}) = E (I {X_{i} \leq x}) = P (X_{i} \leq x) = F_{X} (x), Var (Z_{i}) = F_{X} (x) [1 - F_{X} (x)], \forall i

$E(Z_i) = E\left(I\{X_i\le x\}\right) = P(X_i\le x)=F_X(x),\;\; \text{Var}(Z_i) = F_X(x)[1-F_X(x)],\;\; \forall i$

Niech będzie średnią próbkową tych iid Bernoullis, zdefiniowanych dla stałej jako co oznacza, że Obowiązuje Twierdzenie o centralnej i mamy $Y_n(x)$ $x$

Y_{n} (x) = \frac{1}{n} \sum_{i = 1}^{n} Z_{i}

$Y_n(x) = \frac 1n\sum_{i=1}^nZ_i$

E [Y_{n} (x)] = F_{X} (x), Var (Y_{n} (x)) = (1 / n) F_{X} (x) [1 - F_{X} (x)]

$E[Y_n(x)] = F_X(x),\;\; \text{Var}(Y_n(x)) = (1/n)F_X(x)[1-F_X(x)]$

\sqrt{n} (Y_{n} (x) - F_{X} (x)) \to_{d} N (0, F_{X} (x) [1 - F_{X} (x)])

$\sqrt n\Big(Y_n(x) - F_X(x)\Big) \rightarrow_d \mathbb N\left(0,F_X(x)[1-F_X(x)]\right)$

Zauważ, że tzn. Nie jest to funkcja empiryczna. Stosując „Metodę Delta” mamy to, że dla ciągłej i różniczkowalnej funkcji z niezerową pochodną w punkcie zainteresowania otrzymujemy $Y_n(x) = \hat F_n(x)$ $g(t)$ $g'(t)$

\sqrt{n} (g [{\hat{F}}_{n} (x)] - g [F_{X} (x)]) \to_{d} N (0, F_{X} (x) [1 - F_{X} (x)] \cdot {(g^{'} [F_{X} (x)])}^{2})

$\sqrt n\Big(g[\hat F_n(x)] - g[F_X(x)]\Big) \rightarrow_d \mathbb N\left(0,F_X(x)[1-F_X(x)]\cdot\left(g'[F_X(x)]\right)^2\right)$

Teraz wybierz gdzie oznacza funkcję odwrotną. Jest to funkcja ciągła i różniczkowalna (ponieważ jest), a według twierdzenia o funkcji odwrotnej mamy $g(t) \equiv F^{-1}_X(t),\;\; t\in (0,1)$ $^{-1}$ $F_X(x)$

g^{'} (t) = \frac{d}{d t} F_{X}^{- 1} (t) = \frac{1}{f_{x} (F_{X}^{- 1} (t))}

$g'(t)=\frac {d}{dt}F^{-1}_X(t) = \frac 1{f_x\left(F^{-1}_X(t)\right)}$

Wstawienie tych wyników na w otrzymanym przez nas wyniku asymptotycznym metodą delta $g$

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (x)) - F_{X}^{- 1} (F_{X} (x))) \to_{d} N (0, \frac{F_{X} (x) [1 - F_{X} (x)]}{{[f_{x} (F_{X}^{- 1} (F_{X} (x)))]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - F^{-1}_X(F_X(x))\Big) \rightarrow_d \mathbb N\left(0,\frac {F_X(x)[1-F_X(x)]}{\left[f_x\left(F^{-1}_X(F_X(x))\right)\right]^2} \right)$

i upraszczając,

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (x)) - x) \to_{d} N (0, \frac{F_{X} (x) [1 - F_{X} (x)]}{{[f_{x} (x)]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - x\Big) \rightarrow_d \mathbb N\left(0,\frac {F_X(x)[1-F_X(x)]}{\left[f_x(x)\right]^2} \right)$

.. dla każdego ustalonego . Teraz ustaw , (prawdziwą) medianę populacji. Następnie mamy i powyższy ogólny wynik staje się, w naszym przypadku, $x$ $x=m$ $F_X(m) = 1/2$

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (m)) - m) \to_{d} N (0, \frac{1}{{[2 f_{x} (m)]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(m)) - m\Big) \rightarrow_d \mathbb N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right)$

Ale zbiega się do mediany próbki . To dlatego, że $F^{-1}_X(\hat F_n(m))$ $\hat m$

F_{X}^{- 1} ({\hat{F}}_{n} (m)) = inf {x : F_{X} (x) \geq {\hat{F}}_{n} (m)} = inf {x : F_{X} (x) \geq \frac{1}{n} \sum_{i = 1}^{n} I {X_{i} \leq m}}

$F^{-1}_X(\hat F_n(m)) = \inf\{x : F_X(x) \geq \hat F_n(m)\} = \inf\{x : F_X(x) \geq \frac 1n \sum_{i=1}^n I\{X_i\leq m\}\}$

Prawa strona nierówności zbiega się do a najmniejszy dla którego ostatecznie , jest medianą próbki. $1/2$ $x$ $F_X \geq 1/2$

Więc otrzymujemy

\sqrt{n} (\hat{m} - m) \to_{d} N (0, \frac{1}{{[2 f_{x} (m)]}^{2}})

$\sqrt n\Big(\hat m - m\Big) \rightarrow_d \mathbb N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right)$ który jest centralny Twierdzenie graniczne dla mediany próbki dla absolutnie ciągłych rozkładów.

DYSTRYBUCJE DYSKRETNE
Gdy rozkład jest dyskretny (lub gdy próbka zawiera powiązania), argumentowano, że „klasyczna” definicja kwantyli próbki, a zatem także mediany, może być myląca , jako teoretyczna koncepcja używane do mierzenia tego, co próbuje się zmierzyć za pomocą kwantyli.
W każdym razie zasymulowano, że zgodnie z tą klasyczną definicją (tą, którą wszyscy znamy), asymptotyczny rozkład mediany próbki jest nienormalny i rozkład dyskretny.

Alternatywną definicją przykładowych kwantyli jest zastosowanie pojęcia funkcji „rozkład środkowy”, która jest zdefiniowana jako

F_{m i d} (x) = P (X \leq x) - \frac{1}{2} P (X = x)

$F_{mid}(x) = P(X\le x) - \frac 12P(X=x)$

Definicja kwantyli próbnych poprzez pojęcie funkcji rozkładu średniego może być postrzegana jako uogólnienie, które może obejmować jako przypadki szczególne rozkłady ciągłe, ale także te nie tak ciągłe.

W przypadku rozkładów dyskretnych, pośród innych wyników, stwierdzono, że mediana próbki zdefiniowana za pomocą tej koncepcji ma asymptotycznie rozkład normalny z ... wyszukaną wariancją.

Większość z nich to ostatnie wyniki. Odniesieniem jest Ma, Y., Genton, MG i Parzen, E. (2011). Właściwości asymptotyczne przykładowych kwantyli o rozkładach dyskretnych. Roczniki Instytutu Matematyki Statystycznej, 63 (2), 227-243. , gdzie można znaleźć dyskusję i linki do starszej literatury.

— Alecos Papadopoulos
źródło

2

(+1) Dla artykułu. To doskonała odpowiedź.

— Alex Williams

Czy możesz wyjaśnić, dlaczego zbieżny z przykładową medianą ?

F_{X}^{- 1} ({\hat{F}}_{n} (m))

$F^{-1}_X(\hat F_n(m))$

\hat{m}

$\hat m$

— kasa

Wiem, że w rozkładzie, ale nie widzę, jak przykładowa mediana jest równa

{\hat{F}}_{n} (m) \to F_{X} (m)

$\hat F_n(m) \to F_X(m)$

\hat{m}

$\hat m$

F_{X}^{- 1} ({\hat{F}}_{n} (m))

$F^{-1}_X(\hat F_n(m))$

— kasa

1

@kasa Rozbudowałem trochę sprawę.

— Alecos Papadopoulos

Przykro mi, że wciąż o tym : Ale najmniejszy dla którego ostatecznie , jest medianą populacji, a nie medianą próby, prawda?

x

$x$

F_{X} (x) \geq 1 / 2

$F_X(x) ≥ 1/2$

— kasa

10

Tak, i to nie tylko dla mediany, ale dla każdego kwantyla próbki. Kopiując z tego artykułu , napisanego przez TS Fergusona, profesora na UCLA (jego strona jest tutaj ), który interesująco zajmuje się wspólnym rozkładem średniej próbki i kwantyli próbki, mamy:

Niech iid z funkcją rozkładu , gęstością , średnią i wariancją skończoną . Niech i niech oznacza -ty kwantyl , tak aby . Załóżmy, że gęstość jest ciągła i dodatnia przy . Niech oznacza próbkę -tego kwantyla. Następnie $X_1, . . . ,X_n$ $F(x)$ $f(x)$ $\mu$ $\sigma^2$ $0 < p < 1$ $x_p$ $p$ $F$ $F(x_p) = p$ $f(x)$ $x_p$ $Y_n = X_{(n:\lceil np\rceil)}$ $p$

\sqrt{n} (Y_{n} - x_{p}) \overset{d}{\to} N (0, p (1 - p) / (f (x_{p}))^{2})

$\sqrt n(Y_n − x_p) \xrightarrow{d} N(0, p(1 − p)/(f(x_p))^2)$

Dla (mediana), a masz CLT dla median, $p=1/2 \Rightarrow x_p=m$

\sqrt{n} (Y_{n} - m) \overset{d}{\to} N (0, [2 f (m)]^{- 2})

$\sqrt n(Y_n − m) \xrightarrow{d} N\left(0, [2f(m)]^{-2}\right)$

— Alecos Papadopoulos
źródło

1

Miły. Warto wspomnieć, że wariancja mediany próby nie jest tak łatwa do oszacowania jak ta dla średniej próby.

— Michael M,

@Alecos - jak uzyskałeś dwie odpowiedzi na to pytanie?

— EngrStudent

1

@EngrStudent System na to pozwala, prosi tylko o sprawdzenie, czy rzeczywiście chcesz dodać drugą odpowiedź.

— Alecos Papadopoulos,

8

Podoba mi się analityczna odpowiedź udzielona przez Glen_b. To dobra odpowiedź.

Potrzebuje zdjęcia. Lubię zdjęcia.

Oto obszary elastyczności w odpowiedzi na pytanie:

Na świecie istnieje wiele dystrybucji. Przebieg może się różnić.
Wystarczające ma różne znaczenia. W przypadku kontrprzykładu do teorii czasami wymagany jest pojedynczy kontrprzykład, aby spełnić warunek „wystarczający”. W celu wykazania niskiego wskaźnika wad przy użyciu niepewności dwumianowej mogą być wymagane setki lub tysiące próbek.

Do standardowego standardu użyłem następującego kodu MatLab:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

i otrzymałem następujący wykres jako wynik:

wprowadź opis zdjęcia tutaj

Dlaczego więc nie zrobić tego dla pozostałych 22 „wbudowanych” rozkładów, z wyjątkiem używania wykresów prob (gdzie linia prosta oznacza bardzo normalny)?

wprowadź opis zdjęcia tutaj

A oto kod źródłowy:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

Kiedy widzę analityczny dowód, myślę, że „teoretycznie wszystkie one mogą się zmieścić”, ale kiedy go wypróbuję, mogę uspokoić to za pomocą „istnieje wiele sposobów, które nie działają tak dobrze, często z wykorzystaniem dyskretnych lub bardzo ograniczonych wartości ”, a to może sprawić, że będę chciał być bardziej ostrożny w stosowaniu teorii do wszystkiego, co kosztuje pieniądze.

Powodzenia.

— EngrStudent
źródło

Czy się mylę, czy rozkład, dla którego mediana zwykle nie jest rozkładem, jest dyskretny?

— SeF