Dlaczego CDF próbki jest równomiernie rozmieszczony

Czytałem tutaj , że biorąc próbkę z ciągłego rozkładu z ED próbkę odpowiadającą następujące standardowe rozkładu równomiernego. $X_1,X_2,...,X_n$ $F_X$ $U_i = F_X(X_i)$

Zweryfikowałem to za pomocą symulacji jakościowych w Pythonie i łatwo mogłem zweryfikować związek.

import matplotlib.pyplot as plt
import scipy.stats

xs = scipy.stats.norm.rvs(5, 2, 10000)

fig, axes = plt.subplots(1, 2, figsize=(9, 3))
axes[0].hist(xs, bins=50)
axes[0].set_title("Samples")
axes[1].hist(
    scipy.stats.norm.cdf(xs, 5, 2),
    bins=50
)
axes[1].set_title("CDF(samples)")

Wynikające z następującego wątku:

Wykres przedstawiający próbkę rozkładu normalnego i cdf próbki.

Nie jestem w stanie zrozumieć, dlaczego tak się dzieje. Zakładam, że ma to związek z definicją CDF i jej związku z plikiem PDF, ale czegoś mi brakuje ...

Byłbym wdzięczny, gdyby ktoś mógł skierować mnie na lekturę na ten temat lub pomóc mi w uzyskaniu intuicji na ten temat.

EDYCJA: CDF wygląda następująco:

CDF próbkowanego rozkładu

— Maxime Tremblay
źródło

Oblicz cdf z

F_{X} (X)

$F_X(X)$

— Zhanxiong,

Dowód tej właściwości (dla ciągłych wartości RV) można znaleźć w dowolnej książce o symulacji, ponieważ jest to podstawa odwrotnej metody symulacji cdf.

— Xi'an,

Spróbuj także przekształcić całkowanie prawdopodobieństwa w

— Zachary Blumenfeld,

@ Xi'an Warto podkreślić, że wnioski dotyczą tylko ciągłych zmiennych losowych. Czasami ten wynik jest błędnie stosowany w przypadku dyskretnych zmiennych losowych. Z drugiej strony należy również zauważyć, że wiele dowodów obejmuje etap

w którym zakłada się ścisłą monotoniczność

, co jest również zbyt silnym założeniem. Poniższy link zawiera dokładne podsumowanie tego tematu: people.math.ethz.ch/~embrecht/ftp/generalized_inverse.pdf

P (F (X) \leq x) = P (X \leq F^{- 1} (x))

$P(F(X) \leq x) = P(X \leq F^{-1}(x))$

F

$F$

— Zhanxiong

@Zhanxiong jedynym warunkiem koniecznym dla

jest to, że jest càdlàg.

F

$F$

— AdamO,

Odpowiedzi:

Załóżmy, że jest ciągły i rośnie. Zdefiniuj i zwróć uwagę, że przyjmuje wartości w . Następnie $F_X$ $Z = F_X(X)$ $Z$ $[0, 1]$

F_{Z} (x) = P (F_{X} (X) \leq x) = P (X \leq F_{X}^{- 1} (x)) = F_{X} (F_{X}^{- 1} (x)) = x .

$F_Z(x) = P(F_X(X) \leq x) = P(X \leq F_X^{-1}(x)) = F_X(F_X^{-1}(x)) = x.$

Z drugiej strony, jeśli jest jednorodną zmienną losową, która przyjmuje wartości w , $U$ $[0, 1]$

F_{U} (x) = \int_{R} f_{U} (u) d u = \int_{0}^{x} d u = x .

$F_U(x) = \int_R f_U(u)\,du =\int_0^x \,du =x.$

Zatem dla każdego . $F_Z(x) = F_U(x)$ $x\in[0, 1]$

— Hunaphu
źródło

Czy wynika z tego, że Z ma rozkład równomierny (0, 1)?

— StatsSressress

@StatsSorceress Tak, masz rację.

Z

$Z$ ma standardowy równomierny rozkład na

(0, 1) .

$(0,1).$

— Idonknow,

Intuicyjnie może warto o tym myśleć $F(x)$ jako funkcja percentyla, np $F(x)$ losowo wygenerowanej próbki z DF $F$ ma spaść poniżej $x$ . Na przemian $F^{-1}$ (myśl odwrotne obrazy, a nie właściwa funkcja odwrotna per se ) jest funkcją „kwantylową”. To jest, $x = F^{-1}(p)$ jest sedno $x$ za którymi spada $p$ proporcja próbki. Skład funkcjonalny jest mierzalnie przemienny $F \circ F^{-1} =_\lambda F^{-1} \circ F$ .

Rozkład równomierny jest jedynym rozkładem posiadającym funkcję kwantylową równą funkcji percentyla: są one funkcją tożsamości. Zatem przestrzeń obrazu jest taka sama jak przestrzeń prawdopodobieństwa. $F$ odwzorowuje ciągłe zmienne losowe na przestrzeń (0, 1) z jednakową miarą. Ponieważ dla dowolnych dwóch percentyli $a < b$ , mamy $P(F^{-1}(a) < x < F^{-1}(b)) = P(a < F(X) < b) = b-a$

— AdamO
źródło

I struggled for hours, but finally it clicked why the derived random variable

Y = F (X)

$Y = F(X)$ is uniformly distributed. Your answer really helped, thanks a lot. It seems very much like in algebra where 1 was the multiplicative identity.

— Aditya P