Kluczową ideą jest to, że rozkład próbkowania mediany jest prosty do wyrażenia w kategoriach funkcji rozkładu, ale bardziej skomplikowany do wyrażenia w kategoriach wartości mediany. Kiedy zrozumiemy, w jaki sposób funkcja rozkładu może ponownie wyrażać wartości jako prawdopodobieństwa i z powrotem, łatwo jest uzyskać dokładny rozkład próbkowania mediany. Konieczna jest niewielka analiza zachowania funkcji rozkładu w pobliżu jej mediany, aby wykazać, że jest to asymptotycznie normalne.
(Ta sama analiza działa dla rozkładu próbkowania dowolnego kwantyla, nie tylko mediany).
Nie będę się starał być rygorystyczny w tej prezentacji, ale wykonuję to w krokach, które są łatwo uzasadnione w rygorystyczny sposób, jeśli masz na to ochotę.
Intuicja
Oto migawki pudełka zawierającego 70 atomów gorącego gazu atomowego:
Na każdym zdjęciu znalazłem lokalizację pokazaną jako czerwona pionowa linia, która dzieli atomy na dwie równe grupy między lewą (narysowaną jako czarne kropki) i prawą (białe kropki). Jest to mediana pozycji: 35 atomów leży po lewej, a 35 po prawej. Mediany zmieniają się, ponieważ atomy poruszają się losowo wokół pudełka.
Jesteśmy zainteresowani rozkładem tej środkowej pozycji. Odpowiedzi na to pytanie odwraca moja procedura: najpierw narysujmy gdzieś pionową linię, powiedzmy w miejscu . Jaka jest szansa, że połowa atomów będzie na lewo od a połowa na prawo? Atomy po lewej stronie indywidualnie miały szanse na lewo. Atomy po prawej stronie indywidualnie miały szanse na prawo. Zakładając, że ich pozycje są statystycznie niezależne, szanse się mnożą, dając szansę na tę konkretną konfigurację. Równoważną konfigurację można uzyskać dla innego podziału atomów na dwax x 1 - x x 35 ( 1 - x ) 35 70xxx1−xx35(1−x)357035-elementy. Dodanie tych liczb do wszystkich możliwych takich podziałów daje szansę
Pr(x is a median)=Cxn/2(1−x)n/2
gdzie jest całkowitą liczbą atomów, a jest proporcjonalne do liczby podziałów atomów na dwie równe podgrupy.nCn
Wzór ten określa rozkład mediany jako beta rozkład(n/2+1,n/2+1) .
Rozważ teraz pudełko o bardziej skomplikowanym kształcie:
Ponownie mediany są różne. Ponieważ skrzynia jest nisko w pobliżu centrum, nie ma tam dużej objętości: niewielka zmiana objętości zajmowana przez lewą połowę atomów (czarne ponownie) - lub, równie dobrze, możemy przyznać, obszar z lewej strony, jak to pokazano na tych figurach - odpowiada stosunkowo dużą zmianę w pozycji poziomej mediany. W rzeczywistości, ponieważ obszar zajmowany przez małą poziomą część pudełka jest proporcjonalny do wysokości , zmiany w środkach są dzielone przez wysokość pudełka. To powoduje, że mediana jest bardziej zmienna dla tego pola niż dla pola kwadratowego, ponieważ ten jest o wiele niższy pośrodku.
Krótko mówiąc, kiedy mierzymy pozycję mediany pod względem powierzchni (po lewej i prawej stronie), pierwotna analiza (dla kwadratu) pozostaje niezmieniona. Kształt pudełka komplikuje rozkład tylko wtedy, gdy nalegamy na pomiar mediany pod względem jej położenia poziomego. Kiedy to robimy, związek między reprezentacją obszaru a pozycją jest odwrotnie proporcjonalny do wysokości pudełka.
Z tych zdjęć można dowiedzieć się więcej. Oczywiste jest, że gdy kilka atomów znajduje się w (którymkolwiek) polu, istnieje większa szansa, że połowa z nich może przypadkowo skończyć w klastrze daleko po obu stronach. Wraz ze wzrostem liczby atomów maleje potencjał tak ekstremalnej nierównowagi. Aby to wyśledzić, wziąłem „filmy” - długą serię 5000 klatek - dla zakrzywionego pudełka wypełnionego , potem , , a na końcu atomów, i zanotowałem mediany. Oto histogramy pozycji środkowych:31575375
Oczywiście dla wystarczająco dużej liczby atomów rozkład ich środkowej pozycji zaczyna wyglądać w kształcie dzwonu i staje się węższy: to wygląda na wynik centralnego twierdzenia granicznego, prawda?
Wyniki ilościowe
„Pole” oczywiście przedstawia gęstość prawdopodobieństwa niektórych rozkładów: jego górna krawędź to wykres funkcji gęstości (PDF). Zatem obszary reprezentują prawdopodobieństwa. Umieszczanie punktów losowo i niezależnie w ramce i obserwowanie ich pozycji poziomych jest jednym ze sposobów narysowania próbki z rozkładu. (To jest idea próbkowania przy odrzuceniu ).n
Kolejny rysunek łączy te pomysły.
To wygląda na skomplikowane, ale jest naprawdę bardzo proste. Istnieją tutaj cztery powiązane wątki:
Górny wykres pokazuje PDF rozkładu wraz z jedną losową próbką o rozmiarze . Wartości większe niż mediana są pokazane jako białe kropki; wartości mniejsze niż mediana jako czarne kropki. Nie potrzebuje skali pionowej, ponieważ wiemy, że całkowity obszar to jedność.n
Środkowy wykres jest funkcją rozkładu skumulowanego dla tego samego rozkładu: używa wysokości do oznaczenia prawdopodobieństwa. Dzieli swoją oś poziomą z pierwszym poletkiem. Jego oś pionowa musi wynosić od do ponieważ reprezentuje prawdopodobieństwa.01
Lewy wykres ma być czytany na boki: jest to PDF rozkładu Beta . Pokazuje, jak mediana w ramce będzie się zmieniać, gdy mediana jest mierzona w kategoriach obszarów po lewej i prawej stronie środka (zamiast mierzona przez jej położenie poziome). Narysowałem losowych punktów z tego pliku PDF, jak pokazano, i połączyłem je poziomymi liniami przerywanymi z odpowiednimi lokalizacjami na oryginalnym CDF: w ten sposób objętości (mierzone po lewej stronie) są konwertowane na pozycje (mierzone u góry, pośrodku i dolna grafika). Jeden z tych punktów faktycznie odpowiada medianie pokazanej na górnym wykresie; Narysowałem ciągłą pionową linię, aby to pokazać.(n/2+1,n/2+1)16
Wykres dolny to gęstość próbkowania mediany, mierzona jego pozycją poziomą. Uzyskuje się to poprzez przekształcenie obszaru (na lewym wykresie) w pozycję. Formuła konwersji jest odwrotna do pierwotnego CDF: jest to po prostu definicja odwrotnego CDF! (Innymi słowy, CDF przekształca pozycję w obszar po lewej stronie; odwrotny CDF przekształca z powrotem do obszaru do położenia). Narysowałem pionowe linie przerywane pokazujące, w jaki sposób losowe punkty z lewego wykresu są konwertowane na losowe punkty w dolnym wykresie . Ten proces czytania w poprzek, a następnie w dół mówi nam, jak przejść z obszaru do miejsca.
Niech będzie CDF pierwotnego rozkładu (środkowy wykres), a CDF rozkładu Beta. Aby znaleźć szansę, że mediana leży na lewo od pewnej pozycji , najpierw użyj aby uzyskać pole po lewej stronie w polu: jest to sam . Rozkład Beta po lewej stronie mówi nam o szansie, że połowa atomów znajdzie się w tym tomie, dając : jest to CDF pozycji środkowej . Aby znaleźć jego plik PDF (jak pokazano na dolnym wykresie), weź pochodną:FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
gdzie to PDF (górny wykres), a to Beta PDF (lewy wykres).fg
Jest to dokładny wzór na rozkład mediany dla dowolnego ciągłego rozkładu. (Z pewną ostrożnością przy interpretacji można go zastosować do dowolnej dystrybucji, ciągłej lub nie.)
Wyniki asymptotyczne
Kiedy jest bardzo duże, a nie ma skoku na swojej medianie, mediana próbki musi się bardzo różnić wokół rzeczywistej mediany . Zakładając również, że PDF jest ciągły w pobliżu , w powyższej formule nie zmieni się znacznie od jego wartości w podanej przez Co więcej, również nie zmieni się znacznie ze swojej wartości: na pierwsze zamówienie,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Zatem przy coraz lepszym przybliżeniu, gdy rośnie,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
Jest to jedynie zmiana lokalizacji i skali dystrybucji wersji beta. Przeskalowanie przez podzieli jego wariancję przez (które lepiej być niezerowe!). Nawiasem mówiąc, wariancja Beta jest bardzo bliska .f(μ)f(μ)2n / 4(n/2+1,n/2+1)n/4
Ta analiza może być postrzegana jako zastosowanie metody Delta .
Wreszcie Beta jest w przybliżeniu Normalna dla dużych . Jest na to wiele sposobów; być może najprościej jest spojrzeć na logarytm jego pliku PDF w pobliżu :n 1 / 2(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(Stałe i normalizują jedynie całkowity obszar do jedności.) W przypadku trzeciego rzędu w jest to to samo, co dziennik normalnego PDF z wariancją (Argument ten jest bardziej rygorystyczny przy użyciu charakterystycznych lub kumulatywnych funkcji generujących zamiast dziennika pliku PDF.)CC′x,1/(4n).
Podsumowując, dochodzimy do wniosku
Rozkład mediany próbki ma wariancję około ,1/(4nf(μ)2)
i jest w przybliżeniu Normalny dla dużego ,n
wszystko pod warunkiem, że PDF jest ciągły i niezerowy przy medianiefμ.