Podczas gdy wiele postów na stronie dotyczy różnych właściwości Cauchy, nie udało mi się znaleźć jednego, który naprawdę je rozłożył. Mam nadzieję, że może to być dobre miejsce na zebranie niektórych. Mogę to rozwinąć.
Ciężkie ogony
Podczas gdy Cauchy jest symetryczny i z grubsza w kształcie dzwonu, nieco podobny do normalnego rozkładu, ma znacznie cięższe ogony (i mniej „barku”). Na przykład istnieje małe, ale wyraźne prawdopodobieństwo, że zmienna losowa Cauchy'ego będzie układać więcej niż 1000 przedziałów międzykwartylowych od mediany - mniej więcej tej samej kolejności, co normalna zmienna losowa, co najmniej 2,67 zakresu międzykwartylowego od mediany.
Zmienność
Wariacja Cauchyego jest nieskończona.
Edycja: JG w komentarzach mówi, że jest niezdefiniowany. Jeśli weźmiemy wariancję jako średnią z połowy kwadratowej odległości między parami wartości - która jest identyczna z wariancją, gdy obie istnieją, to byłaby nieskończona. Jednak zgodnie ze zwykłą definicją JG jest poprawna. [Niemniej jednak, w przeciwieństwie do średnich próbek, które tak naprawdę nie są zbieżne, ponieważ n staje się duże, rozkład wariancji próbek stale rośnie wraz ze wzrostem wielkości próbki; skala wzrasta proporcjonalnie do n lub równoważnie rozkład wariancji log rośnie wraz z rozmiarem próbki. Wydaje się, że produktywne jest rozważenie, że ta wersja wariancji, która daje nieskończoność, mówi nam coś.]
Oczywiście istnieją odchylenia standardowe próbki, ale im większa próbka, tym są one większe (np. Mediana odchylenia standardowego próbki przy n = 10 jest w pobliżu 3,67 razy parametr skali (połowa IQR), ale przy n = 100 to około 11,9).
Oznaczać
Rozkład Cauchy'ego nie ma nawet skończonej wartości; całka dla średniej nie jest zbieżna. W rezultacie, nawet prawa wielkich liczb nie mają zastosowania - w miarę wzrostu n, próbki oznaczają, że nie zbiegają się do jakiejś ustalonej wielkości (w rzeczywistości nie ma dla nich nic, do czego mogłyby się zbiegać).
W rzeczywistości rozkład średniej próbki z rozkładu Cauchyego jest taki sam, jak rozkład pojedynczej obserwacji (!). Ogon jest tak ciężki, że dodanie większej liczby wartości do sumy sprawia, że naprawdę ekstremalna wartość jest wystarczająco prawdopodobna, aby po prostu zrekompensować podzielenie przez większy mianownik przy przyjmowaniu średniej.
Przewidywalność
Z pewnością możesz stworzyć idealnie rozsądne przedziały prognozowania dla obserwacji z rozkładu Cauchyego; istnieją proste, dość wydajne estymatory, które dobrze sprawdzają się w szacowaniu lokalizacji i skali, i można budować przybliżone przedziały prognozowania - więc w tym sensie co najmniej zmienne Cauchy'ego są „przewidywalne”. Jednak ogon rozciąga się bardzo daleko, więc jeśli chcesz interwał o wysokim prawdopodobieństwie, może być dość szeroki.
Jeśli próbujesz przewidzieć środek rozkładu (np. W modelu typu regresji), może to w pewnym sensie być stosunkowo łatwe do przewidzenia; Cauchy jest dość szczytowy (rozkład jest „zbliżony” do centrum dla typowej miary skali), więc centrum można stosunkowo dobrze oszacować, jeśli masz odpowiedni estymator.
Oto przykład:
Wygenerowałem dane na podstawie zależności liniowej ze standardowymi błędami Cauchy'ego (100 obserwacji, punkt przecięcia = 3, nachylenie = 1,5) i oszacowałem linie regresji trzema metodami, które są dość odporne na wartości odstające y: linia grupy Tukey 3 (czerwona), regresja Theil (ciemnozielony) i regresja L1 (niebieski). Żadne z nich nie jest szczególnie wydajne w Cauchy - choć wszystkie byłyby doskonałymi punktami wyjścia do bardziej wydajnego podejścia.
Niemniej jednak te trzy są prawie zbieżne w porównaniu do hałaśliwości danych i leżą bardzo blisko centrum, w którym biegną dane; w tym sensie Cauchy jest wyraźnie „przewidywalny”.
Mediana absolutnych reszt jest tylko trochę większa niż 1 dla dowolnej linii (większość danych leży dość blisko linii szacowanej); w tym sensie Cauchy jest „przewidywalny”.
Dla działki po lewej stronie jest duża wartość odstająca. Aby lepiej widzieć dane, zawęziłem skalę na osi Y w dół po prawej stronie.