Empiryczny CDF vs CDF

21

Uczę się o funkcji empirycznej kumulatywnej dystrybucji. Ale nadal nie rozumiem

Dlaczego nazywa się to „empirycznym”?
Czy jest jakaś różnica między Empirical CDF a CDF?

— Gammaries
źródło

2

Sprawdź tutaj stats.stackexchange.com/questions/222120/…

— Tim

Istnieje proste, proste i eleganckie wyjaśnienie dotyczące biletów w modelach pudełkowych : CDF opisuje to, co jest w oryginalnym pudełku. ECDF jest tym, co dostajesz, gdy umieścisz próbkę (która jest zestawem biletów pobranych z oryginalnego pudełka: tak zwanych „danych empirycznych”) do pustego pudełka.

— whuber

Jedną z rzeczy, o których należy pamiętać, jest to, że rozkład empiryczny jest zwykle ograniczony przez sposób jego budowy, podczas gdy CDF może nie być. Na przykład, jeśli zbudujesz empiryczny CDF z obserwacji zmiennej Poissona, uzyskany ECDF będzie ograniczony najwyższą obserwowaną częstotliwością, podczas gdy prawdziwy CDF będzie nieograniczony.

— Aksakal

27

Niech będzie zmienną losową. $X$

Skumulowana funkcja rozkładu daje . $F(x)$ $P(X \leq x)$
Empiryczna funkcja rozkładu skumulowanego daje na podstawie obserwacji w próbie. $G(x)$ $P(X \leq x)$

Rozróżnia się, która miara prawdopodobieństwa jest stosowana. W przypadku empirycznego CDF stosuje się miarę prawdopodobieństwa zdefiniowaną przez liczbę częstotliwości w próbce empirycznej.

Prosty przykład (rzut monetą):

Niech będzie zmienną losową oznaczającą wynik rzutu pojedynczą monetą, gdzie oznacza głowy, a oznacza ogony. $X$ $X=1$ $X=0$

CDF za uczciwą monetę podaje:

F (x) = {\begin{cases} 0 & for x < 0 \\ \frac{1}{2} & for 0 \leq x < 1 \\ 1 & for 1 \leq x \end{cases}

$F(x) = \left\{ \begin{array}{ll} 0 & \text{for } x < 0\\ \frac{1}{2} & \text{for } 0 \leq x < 1 \\1 & \text{for } 1 \leq x \end{array} \right.$

Jeśli przerzucisz 2 głowy i 1 ogon, empiryczny CDF to:

G (x) = {\begin{cases} 0 & for x < 0 \\ \frac{2}{3} & for 0 \leq x < 1 \\ 1 & for 1 \leq x \end{cases}

$G(x) = \left\{ \begin{array}{ll} 0 & \text{for } x < 0\\ \frac{2}{3} & \text{for } 0 \leq x < 1 \\1 & \text{for } 1 \leq x \end{array} \right.$

Empiryczny CDF odzwierciedlałby to, że w twojej próbce twoich przewrotów było głowami. $2/3$

Kolejny przykład ( to CDF dla rozkładu normalnego): $F$

Niech będzie zmienną losową o rozkładzie normalnym ze średnią i odchyleniem standardowym . $X$ $0$ $1$

CDF jest przyznawany przez:

F (x) = \int_{- \infty}^{x} \frac{1}{\sqrt{2 π}} e^{\frac{- x^{2}}{2}}

$F(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{\frac{-x^2}{2}}$

Powiedzmy, że miałeś 3 losowania IID i wartości . Empiryczny CDF to: $x_1 < x_2 < x_3$

G (y) = {\begin{cases} 0 & for y < x_{1} \\ \frac{1}{3} & for x_{1} \leq y < x_{2} \\ \frac{2}{3} & for x_{2} \leq y < x_{3} \\ 1 & for x_{3} \leq y \end{cases}

$G(y) = \left\{ \begin{array}{ll} 0 & \text{for } y < x_1\\ \frac{1}{3} & \text{for } x_1 \leq y < x_2 \\\frac{2}{3} & \text{for } x_2 \leq y < x_3 \\1 & \text{for } x_3 \leq y \end{array} \right.$

Przy wystarczającej liczbie losowań IID (i spełnione są pewne warunki prawidłowości), empiryczny CDF zbiegłby się z bazowym CDF populacji.

— Matthew Gunn
źródło

12

Czy jest jakaś różnica między Empirical CDF a CDF?

Tak, są różne. Empiryczny plik cdf jest właściwym plikiem cdf, ale empiryczne pliki cdf będą zawsze dyskretne, nawet jeśli nie zostaną pobrane z rozkładu dyskretnego, podczas gdy plik cdf rozkładu może być czymś innym niż dyskretnym.

Jeśli traktujesz próbkę tak, jakby była populacją wartości, z których każda jest równie prawdopodobna (tj. Umieści prawdopodobieństwo 1 / n na każdej obserwacji), to cdf tego rozkładu będzie ECDF danych.

Dlaczego nazywa się „Empiryczny”?

Jest to szacunkowa liczba ludności cdf na podstawie próby; szczególnie jeśli traktujesz proporcje próbki dla każdej odrębnej wartości danych i traktujesz ją tak, jakby to było prawdopodobieństwo w populacji, otrzymujesz ECDF.

Empiryczny ma znaczenie coś w rodzaju „poprzez obserwację, a nie teorię”, i właśnie to w tym przypadku oznacza… wykorzystanie obserwacji do określenia funkcji rozkładu.

— Glen_b - Przywróć Monikę
źródło

10

Empiryczny CDF jest zbudowany z rzeczywistego zestawu danych (na poniższym wykresie użyłem 100 próbek ze standardowego rozkładu normalnego). CDF to konstrukcja teoretyczna - zobaczyłbyś ją, gdybyś mógł pobrać nieskończenie wiele próbek.

Empiryczny CDF zwykle dość dobrze przybliża CDF, szczególnie w przypadku dużych próbek (w rzeczywistości istnieją twierdzenia o tym, jak szybko zbiega się on z CDF wraz ze wzrostem wielkości próbki).

— Chris Taylor
źródło

10

Empiryczny to coś, co budujesz na podstawie danych i obserwacji. Załóżmy na przykład, że chcesz wiedzieć o rozkładzie wysokości osób w danym kraju. Zaczynasz od mierzenia ludzi i tworzysz histogram, który można przybliżyć do rozkładu. Następnie obliczasz empiryczny CDF.

Jeśli używasz rozkładu statystycznego (formuła deterministyczna, która daje dokładnie taki sam wynik przy tych samych parametrach), możesz również obliczyć jego CDF.

$N(\mu=1.75\ \text{m},\sigma=0.1\ \text{m})$

— berkorbay
źródło

Czy zastosowano pomiar ufności, który wyraża prawdopodobieństwo, że CDF i Emperical CDF opisują tę samą populację na granicy całego eksperymentalnego pobierania próbek na świecie? Wydaje się, że ma to na przykład zastosowanie do głosowania wyborczego. (choć może nie, ponieważ wynik nie jest ściśle opisywany jako funkcja ...)

— BenPen,

3

Według Dictionary.com definicje „empirycznego” obejmują:

wywodzi się z doświadczenia lub eksperymentu lub kieruje się nim.

Stąd Empiryczny CDF to CDF, który otrzymujesz z twoich danych. Kontrastuje to z teoretycznym CDF (często nazywanym „CDF”), który jest uzyskiwany z modelu statystycznego lub probabilistycznego, takiego jak rozkład normalny.

— Waldir Leoncio
źródło

Empiryczny CDF vs CDF

Prosty przykład (rzut monetą):

Kolejny przykład ( to CDF dla rozkładu normalnego):faFF

Kolejny przykład ( to CDF dla rozkładu normalnego): $F$