Czy rozkład Cauchy'ego jest w jakiś sposób rozkładem „nieprzewidywalnym”?


14

Czy rozkład Cauchy'ego jest w jakiś sposób „rozkładem nieprzewidywalnym”?

Próbowałem zrobić

cs <- function(n) {
  return(rcauchy(n,0,1))
}

w R dla wielu n wartości i zauważyli, że czasami generują dość nieprzewidywalne wartości.

Porównaj to np

as <- function(n) {
  return(rnorm(n,0,1))
}

co zawsze wydaje się dawać „zwartą” chmurę punktów.

Na tym zdjęciu powinno to wyglądać jak normalny rozkład? Jednak może dotyczy to tylko podzbioru wartości. A może sztuczka polega na tym, że odchylenia standardowe Cauchy'ego (na zdjęciu poniżej) zbiegają się znacznie wolniej (w lewo i w prawo), a zatem pozwala na bardziej poważne wartości odstające, chociaż z małym prawdopodobieństwem?

https://i.stack.imgur.com/zGTLU.png

Tutaj, podobnie jak normalne rv i cs, są Cauchy rvs.

wprowadź opis zdjęcia tutaj

Ale czy na skraju wartości odstających jest możliwe, że ogony pliku PDF z Cauchy nigdy się nie zbiegają?


9
1. Twoje pytanie jest niejasne / niejasne, więc trudno jest na nie odpowiedzieć; np. co oznacza „nieprzewidywalny” w twoim pytaniu? co rozumiesz przez „odchylenia standardowe Cauchy'ego” i zbieżność pod koniec? Wydaje się, że nigdzie nie obliczasz standardowych odchyleń. standardowe odchylenia czego dokładnie? 2. Wiele postów na stronie omawia właściwości Cauchy'ego, które mogą pomóc ci skupić się na pytaniu. Warto również sprawdzić Wikipedię. 3. Sugeruję unikanie terminu „w kształcie dzwonu”; obie gęstości wydają się z grubsza kształtem przypominać dzwon; po prostu nazywaj ich po imieniu.
Glen_b

4
Z pewnością Cauchy jest bardzo ciężki.
Glen_b

1
Opublikowałem kilka faktów; mam nadzieję, że pomogą ci to dowiedzieć się, o czym chcesz wiedzieć, abyś mógł uściślić swoje pytanie.
Glen_b

1
|x|x

2
Duże wartości odstające są możliwe przy normalnym, ale są niezwykle rzadkie . Gęstość (i w górnej części ogona, szczególnie istotna dla wartości odstających przynajmniej o danym rozmiarze, funkcja przeżycia) dla normalnych głów w kierunku 0 znacznie szybciej niż Cauchy'ego - ale mimo to obie gęstości (i obie funkcje przeżycia) zbliżyć się do 0 i nigdy do niego nie dotrzeć
Glen_b

Odpowiedzi:


39

Podczas gdy wiele postów na stronie dotyczy różnych właściwości Cauchy, nie udało mi się znaleźć jednego, który naprawdę je rozłożył. Mam nadzieję, że może to być dobre miejsce na zebranie niektórych. Mogę to rozwinąć.

Ciężkie ogony

Podczas gdy Cauchy jest symetryczny i z grubsza w kształcie dzwonu, nieco podobny do normalnego rozkładu, ma znacznie cięższe ogony (i mniej „barku”). Na przykład istnieje małe, ale wyraźne prawdopodobieństwo, że zmienna losowa Cauchy'ego będzie układać więcej niż 1000 przedziałów międzykwartylowych od mediany - mniej więcej tej samej kolejności, co normalna zmienna losowa, co najmniej 2,67 zakresu międzykwartylowego od mediany.

Zmienność

Wariacja Cauchyego jest nieskończona.

Edycja: JG w komentarzach mówi, że jest niezdefiniowany. Jeśli weźmiemy wariancję jako średnią z połowy kwadratowej odległości między parami wartości - która jest identyczna z wariancją, gdy obie istnieją, to byłaby nieskończona. Jednak zgodnie ze zwykłą definicją JG jest poprawna. [Niemniej jednak, w przeciwieństwie do średnich próbek, które tak naprawdę nie są zbieżne, ponieważ n staje się duże, rozkład wariancji próbek stale rośnie wraz ze wzrostem wielkości próbki; skala wzrasta proporcjonalnie do n lub równoważnie rozkład wariancji log rośnie wraz z rozmiarem próbki. Wydaje się, że produktywne jest rozważenie, że ta wersja wariancji, która daje nieskończoność, mówi nam coś.]

Oczywiście istnieją odchylenia standardowe próbki, ale im większa próbka, tym są one większe (np. Mediana odchylenia standardowego próbki przy n = 10 jest w pobliżu 3,67 razy parametr skali (połowa IQR), ale przy n = 100 to około 11,9).

Oznaczać

Rozkład Cauchy'ego nie ma nawet skończonej wartości; całka dla średniej nie jest zbieżna. W rezultacie, nawet prawa wielkich liczb nie mają zastosowania - w miarę wzrostu n, próbki oznaczają, że nie zbiegają się do jakiejś ustalonej wielkości (w rzeczywistości nie ma dla nich nic, do czego mogłyby się zbiegać).

W rzeczywistości rozkład średniej próbki z rozkładu Cauchyego jest taki sam, jak rozkład pojedynczej obserwacji (!). Ogon jest tak ciężki, że dodanie większej liczby wartości do sumy sprawia, że ​​naprawdę ekstremalna wartość jest wystarczająco prawdopodobna, aby po prostu zrekompensować podzielenie przez większy mianownik przy przyjmowaniu średniej.

Przewidywalność

Z pewnością możesz stworzyć idealnie rozsądne przedziały prognozowania dla obserwacji z rozkładu Cauchyego; istnieją proste, dość wydajne estymatory, które dobrze sprawdzają się w szacowaniu lokalizacji i skali, i można budować przybliżone przedziały prognozowania - więc w tym sensie co najmniej zmienne Cauchy'ego są „przewidywalne”. Jednak ogon rozciąga się bardzo daleko, więc jeśli chcesz interwał o wysokim prawdopodobieństwie, może być dość szeroki.

Jeśli próbujesz przewidzieć środek rozkładu (np. W modelu typu regresji), może to w pewnym sensie być stosunkowo łatwe do przewidzenia; Cauchy jest dość szczytowy (rozkład jest „zbliżony” do centrum dla typowej miary skali), więc centrum można stosunkowo dobrze oszacować, jeśli masz odpowiedni estymator.

Oto przykład:

Wygenerowałem dane na podstawie zależności liniowej ze standardowymi błędami Cauchy'ego (100 obserwacji, punkt przecięcia = 3, nachylenie = 1,5) i oszacowałem linie regresji trzema metodami, które są dość odporne na wartości odstające y: linia grupy Tukey 3 (czerwona), regresja Theil (ciemnozielony) i regresja L1 (niebieski). Żadne z nich nie jest szczególnie wydajne w Cauchy - choć wszystkie byłyby doskonałymi punktami wyjścia do bardziej wydajnego podejścia.

Niemniej jednak te trzy są prawie zbieżne w porównaniu do hałaśliwości danych i leżą bardzo blisko centrum, w którym biegną dane; w tym sensie Cauchy jest wyraźnie „przewidywalny”.

Mediana absolutnych reszt jest tylko trochę większa niż 1 dla dowolnej linii (większość danych leży dość blisko linii szacowanej); w tym sensie Cauchy jest „przewidywalny”.

związek liniowy z błędami Cauchy'ego i trzema dopasowanymi liniami regresji

Dla działki po lewej stronie jest duża wartość odstająca. Aby lepiej widzieć dane, zawęziłem skalę na osi Y w dół po prawej stronie.


1
Ciężkie ogony i wariancja będące nieskończonością są powiązane, prawda?
mavavilj

Na pewno. Nieokreślona średnia jest również związana z ciężkimi ogonami.
Glen_b

„Istnieją proste, dość wydajne estymatory, które dobrze sprawdzają się w szacowaniu lokalizacji i skali oraz można zbudować przybliżone przedziały prognozowania” - czy możesz podać referencje?
Carlos Cinelli,

Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
gung - Przywróć Monikę

@Carlos Istnieją dwie różne kwestie - (i) proste, dość wydajne estymatory lokalizacji (takie jak odpowiednio przycięta średnia) i skala w Cauchy, oraz (ii) metody konstruowania interwału prognozowania, który zadziałałby dla Cauchy'ego. Myślę, że pierwszy jest już dostępny na stronie, a drugi zasługuje na własne pytanie.
Glen_b

1

μσnμ±σμ±636,62σ

σ

Rozkład Cauchy'ego wydaje się dość naturalny, szczególnie tam, gdzie masz jakąś formę wzrostu. Pojawia się także tam, gdzie wirują rzeczy, takie jak skały staczające się ze wzgórz. Przekonasz się, że jest to podstawowa dystrybucja brzydkiej mieszanki dystrybucji w zwrotach z giełdy, choć nie w zamian za rzeczy takie jak antyki sprzedawane na aukcjach. Zwroty antyków również należą do rozkładu bez średniej lub wariancji, ale nie do rozkładu Cauchy'ego. Różnice wynikają z różnic w zasadach aukcji. Jeśli zmienisz zasady NYSE, dystrybucja Cauchy'ego zniknie i pojawi się inna.

Aby zrozumieć, dlaczego jest zwykle obecny, wyobraź sobie, że byłeś licytującym w bardzo dużej grupie licytujących i potencjalnych licytujących. Ponieważ zapasy są sprzedawane na podwójnej aukcji, klątwa zwycięzcy nie ma zastosowania. W równowadze racjonalnym zachowaniem jest ustalenie oczekiwanej wartości. Oczekiwanie jest formą średniej. Rozkład średnich oszacowań zbiegnie się do normalności wraz z wielkością próby zbliżoną do nieskończoności.

rt=pt+1pt

To sprawia, że ​​rynek papierów wartościowych jest bardzo niestabilny, jeśli uważa się, że rynek akcji powinien mieć normalną lub logarytmiczną dystrybucję, ale nie niespodziewanie zmienną, jeśli oczekujesz ciężkich ogonów.

Skonstruowałem zarówno predykcyjne rozkłady bayesowskie, jak i częstościści dla rozkładu Cauchy'ego i biorąc pod uwagę ich założenia, że ​​działają dobrze. Prognozowanie Bayesowskie minimalizuje dywergencję Kullbacka-Leiblera, co oznacza, że ​​jest tak blisko prognozy dla natury, jak dla danego zestawu danych. Prognozowanie Frequentist minimalizuje średnią dywergencję Kullbacka-Leiblera względem wielu niezależnych prognoz z wielu niezależnych próbek. Jednak niekoniecznie sprawdza się w przypadku jednej próbki, jak można by oczekiwać przy średnim pokryciu. Ogony zbiegają się, ale zbiegają się powoli.

Wieloczynnikowy Cauchy ma jeszcze bardziej niepokojące właściwości. Na przykład, chociaż oczywiście nie można tego zrobić, ponieważ nie ma żadnego środka, nie ma on nic podobnego do macierzy kowariancji. Błędy Cauchy'ego są zawsze kuliste, jeśli w systemie nie dzieje się nic więcej. Ponadto, mimo że nic się nie zmienia, nic też nie jest niezależne. Aby zrozumieć, jak ważne może być to w praktyce, wyobraź sobie dwa kraje, które rozwijają się i handlują ze sobą. Błędy w jednym nie są niezależne od błędów w drugim. Moje błędy wpływają na twoje błędy. Jeśli jeden kraj zostanie przejęty przez szaleńca, błędy tego szaleńca są odczuwalne wszędzie. Z drugiej strony, ponieważ efekty nie są liniowe, jak można by oczekiwać przy matrycy kowariancji, inne kraje mogą zerwać relacje, aby zminimalizować wpływ.

To także sprawia, że ​​wojna handlowa Trumpa jest tak niebezpieczna. Druga co do wielkości gospodarka na świecie po Unii Europejskiej wypowiedziała wojnę gospodarczą poprzez handel przeciwko każdej innej gospodarce i finansuje tę wojnę pożyczając pieniądze na walkę z narodami, w których wypowiedziała wojnę. Jeśli te zależności będą zmuszone się odprężyć, będzie to brzydkie w sposób, którego nikt nie pamięta. Nie mieliśmy podobnego problemu od czasu Administracji Jacksona, kiedy Bank Anglii zawstydził handel atlantycki.

Rozkład Cauchy'ego jest fascynujący, ponieważ występuje w systemach wzrostu wykładniczego i krzywej S. Mylą ludzi, ponieważ ich codzienne życie jest pełne gęstości, które mają podłość i zwykle różnią się. Utrudnia to podejmowanie decyzji, ponieważ wyciągane są niewłaściwe wnioski.


W tej odpowiedzi podoba mi się śmiały sposób, w jaki właściwości matematyczne są odwzorowywane na zachowanie w świecie rzeczywistym. Ale czy nie powinieneś wspomnieć, że (obustronne) Ścięte Cauchy ma wszystkie swoje chwile skończone?
Alecos Papadopoulos,

Jest przycięty tylko po lewej stronie. Nominalne ograniczenie budżetu planetarnego jest stochastyczne po prawej stronie, a ponieważ systemy monetarne nie chronią systemów, są nieskończone po prawej stronie.
Dave Harris,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.