Czy dla danej liczby stałej (np. 4) można znaleźć rozkład prawdopodobieństwa dla , tak że mamy ?
Czy dla danej liczby stałej (np. 4) można znaleźć rozkład prawdopodobieństwa dla , tak że mamy ?
Odpowiedzi:
Ostrożnie biorąc pod uwagę przypadki dla : jeśli wówczas rozkład jest zdegenerowany, ale może mieć dowolną średnią. Oznacza to, że i dla dowolnego . Możemy więc znaleźć wiele możliwych dystrybucji dla , ale są one indeksowane i całkowicie określone przez .
Jeśli , nie można znaleźć rozkładu, ponieważ .
Dla , odpowiedź będzie zależeć od tego, co znane jest dodatkowa informacja o . Na przykład, jeśli wiadomo, że ma średnią , to dla dowolnego i możemy znaleźć rozkład z tymi momentami, biorąc . Nie jest to unikalne rozwiązanie problemu dopasowania średniej i wariancji, ale jest to jedyne normalnie rozłożone rozwiązanie (i spośród wszystkich możliwych rozwiązań, to jest to, które maksymalizuje entropię, jak zauważa Daniel). Jeśli chcesz dopasować np. Trzeci moment centralny lub wyższy, musisz rozważyć szerszy zakres rozkładów prawdopodobieństwa.
Załóżmy, że zamiast tego mieliśmy trochę informacji o rozkładzie a nie o jego momentach. Na przykład, jeśli wiemy, że podąża za rozkładem Poissona, wówczas unikalnym rozwiązaniem byłoby . Jeśli wiemy, że ma rozkład wykładniczy, to znowu jest unikalne rozwiązanie , w którym znaleźliśmy parametr rozwiązując .
W innych przypadkach możemy znaleźć całą rodzinę rozwiązań. Jeśli wiemy, że ma rozkład prostokątny (ciągły jednolity), wówczas możemy znaleźć unikalną szerokość dla rozkładu, rozwiązując . Ale będzie cała rodzina rozwiązań, sparametryzowanych przez - wszystkie dystrybucje w tym zestawie są tłumaczeniem siebie nawzajem. Podobnie, jeśli jest normalny to działałaby dowolna dystrybucja (więc mamy cały zestaw rozwiązań indeksowanych przez , co znowu może być dowolną liczbą rzeczywistą, a rodzina znowu jest tłumaczeniem od siebie). Gdyby podąża za rozkładem gamma, następnie za pomocą parametryzacji w skali kształtu możemy uzyskać całą rodzinę rozwiązań, sparametryzowane przez . Członkowie tej rodziny nie tłumaczą się nawzajem. Aby pomóc w wizualizacji, jak może wyglądać „rodzina rozwiązań”, oto kilka przykładów normalnych rozkładów indeksowanych według , a następnie rozkładów gamma indeksowanych według , wszystkie o wariancji równej cztery, odpowiadającej przykładowi w Twoje pytanie.
Z drugiej strony, dla niektórych rozkładów znalezienie lub rozwiązanie może być niemożliwe, w zależności od wartości . Na przykład, jeśli musi być zmienną Bernoulliego, to dla istnieją dwa możliwe rozwiązania ponieważ istnieją dwa prawdopodobieństwa które rozwiązują równanie , a te dwa prawdopodobieństwa są komplementarne, tj. . Dla istnieje tylko unikalne rozwiązanie , a dla brak rozkładu Bernoulliego ma wystarczająco wysoką wariancję.
Myślę, że powinienem również wspomnieć o sprawie . Istnieją rozwiązania dla tego przypadku zbyt, na przykład Studenta dystrybucja z dwoma stopniami swobody.
Kod R dla wykresów
require(ggplot2)
x.df <- data.frame(x = rep(seq(from=-8, to=8, length=100), times=5),
mu = rep(c(-4, -2, 0, 2, 4), each=100))
x.df$pdf <- dnorm(mean=x.df$mu, x.df$x)
ggplot(x.df, aes(x=x, y=pdf, group=factor(mu), colour=factor(mu))) + theme_bw() +
geom_line(size=1) + scale_colour_brewer(name=expression(mu), palette="Set1") +
theme(legend.key = element_blank()) + ggtitle("Normal distributions with variance 4")
x.df <- data.frame(x = rep(seq(from=0, to=20, length=1000), times=5),
theta = rep(c(0.25, 0.5, 1, 2, 4), each=1000))
x.df$pdf <- dgamma(x.df$x, shape=4/(x.df$theta)^2, scale=x.df$theta)
ggplot(x.df, aes(x=x, y=pdf, group=factor(theta), colour=factor(theta))) + theme_bw() +
geom_line(size=1) + scale_colour_brewer(name=expression(theta), palette="Set1") +
theme(legend.key = element_blank()) + ggtitle("Gamma distributions with variance 4") +
coord_cartesian(ylim = c(0, 1))
Zakładając, że masz na myśli „czy możliwe jest znalezienie rozkładu prawdopodobieństwa dla ”, odpowiedź brzmi tak, ponieważ nie określono żadnych kryteriów, które musi spełniać. W rzeczywistości istnieje nieskończona liczba możliwych dystrybucji, które spełniają ten warunek. Rozważmy rozkład normalny, . Możesz ustawić a może przyjąć dowolną wartość - wtedy będziesz miał zgodnie z wymaganiami.
W rzeczywistości rozkład normalny jest pod tym względem raczej szczególny, ponieważ jest to maksymalny rozkład prawdopodobieństwa entropii dla danej średniej i wariancji.
To pytanie można interpretować w sposób, który czyni je interesującym i nie do końca trywialnym. Biorąc pod uwagę coś który wygląda jak zmienna losowa, w jakim stopniu możliwe jest przypisanie prawdopodobieństw do jego wartości (lub przesunięcie istniejących prawdopodobieństw wokół) w taki sposób, że jego wariancja jest równa pewnej z góry określonej liczbie ? Odpowiedź jest taka, że wszystkie możliwe wartości jest dopuszczalna, maksymalnie limit określony przez zakres .
Potencjalne zainteresowanie taką analizą polega na zmianie miernika prawdopodobieństwa przy jednoczesnym utrzymaniu stałej zmiennej losowej w celu osiągnięcia określonego celu. Chociaż ta aplikacja jest prosta, wyświetla niektóre idee leżące u podstaw twierdzenia Girsanova , wynik fundamentalny w finansach matematycznych.
Powtórzmy to pytanie w sposób rygorystyczny, jednoznaczny. Przypuszczać
jest funkcją mierzalną zdefiniowaną w przestrzeni miary pomocą sigma-algebra . Kiedy dla danej liczby rzeczywistej można znaleźć miarę prawdopodobieństwa na tym obszarze, dla którego ?
Uważam, że odpowiedź jest taka, że jest to możliwe, gdy . (Równość może zostać utrzymana, jeśli supremum i infimum zostaną osiągnięte: to znaczy, że faktycznie są one maksymalnym i minimalnym ) Gdy lub , ten warunek nie nakłada ograniczenia na , a następnie możliwe są wszystkie nieujemne wartości wariancji.
Dowodem jest konstrukcja. Zacznijmy od prostej wersji, aby zadbać o szczegóły i sprecyzować podstawowy pomysł, a następnie przejść do faktycznej konstrukcji.
Niech będzie na obrazie : oznacza to, że istnieje dla którego . Zdefiniuj ustawioną funkcję aby była wskaźnikiem : to znaczy jeśli i po .
Ponieważ , oczywiście spełnia pierwsze dwa aksjomaty prawdopodobieństwa . Konieczne jest wykazanie, że spełnia trzeci; mianowicie, że jest to dodatek sigma. Ale jest to prawie tak oczywiste: ilekroć jest skończonym lub liczebnie nieskończonym zestawem wzajemnie wykluczających się zdarzeń, wówczas żadne z nich nie zawiera takim przypadku dla wszystkich lub dokładnie jeden z nich zawiera , w którym to przypadku dla niektórych konkretnych a w innym przypadku dla wszystkich. W obu przypadkach
ponieważ obie strony mają albo albo obie .
Ponieważ koncentruje całe prawdopodobieństwo na , rozkład jest skoncentrowany na a musi mieć zerową wariancję.
Niech będzie dwiema wartościami z zakresu ; to znaczy i . W sposób podobny do poprzedniego kroku zdefiniuj miarę jako średnią ważoną wskaźników i . Używać nieujemne grubości i dla być ustalona. Tak jak poprzednio, stwierdzamy, że będąc wypukłą kombinacją miar wskaźników omówionych w (1) - jest miarą prawdopodobieństwa. Rozkład w odniesieniu do tej miary to Bernoullidystrybucja skalowana przez i przesunięta o . Ponieważ wariancja rozkładu Bernoulliego wynosi , wariancja musi wynosić .
Bezpośrednią konsekwencją (2) jest to, że każdy dla którego istnieje w zakresie i dla którego
może być wariancja . Ponieważ , oznacza to
z zachowaniem równości wtedy i tylko wtedy, gdy ma maksimum i minimum.
I odwrotnie, jeśli przekracza tę granicę , wówczas żadne rozwiązanie nie jest możliwe, ponieważ wiemy już, że wariancja dowolnej ograniczonej zmiennej losowej nie może przekraczać jednej czwartej kwadrat jego zasięgu.
Tak, można znaleźć taką dystrybucję. W rzeczywistości możesz wziąć dowolną dystrybucję ze skończoną wariancją i skalować, aby dopasować ją do swojego warunku, ponieważ
Na przykład rozkład równomierny w przedziale ma wariancję: Stąd rozkład równomierny w przedziale będzie miał wariancję .
W rzeczywistości jest to powszechny sposób dodawania parametrów do niektórych dystrybucji, takich jak Student t. Ma tylko jeden parametr, - stopnie swobody. Kiedy rozkład jest zbieżny ze standardową normalną. Ma kształt dzwonu i wygląda bardzo normalnie, ale ma grubsze ogony. Dlatego często jest stosowany jako alternatywa dla normalnego rozkładu, gdy ogony są grube. Jedynym problemem jest to, że rozkład Gaussa ma dwa parametry. Tak więc pojawia się skalowana wersja Studenta t, która jest czasami nazywana rozkładem „ t skali lokalizacji” . To bardzo prosta transformacja: , gdzie to lokalizacja i skala. Teraz możesz ustawić skalę, aby nowa zmienna będzie mieć dowolną wymaganą wariancję i będzie mieć kształt rozkładu t Studenta.