Uczę się o funkcji empirycznej kumulatywnej dystrybucji. Ale nadal nie rozumiem
Dlaczego nazywa się to „empirycznym”?
Czy jest jakaś różnica między Empirical CDF a CDF?
Uczę się o funkcji empirycznej kumulatywnej dystrybucji. Ale nadal nie rozumiem
Dlaczego nazywa się to „empirycznym”?
Czy jest jakaś różnica między Empirical CDF a CDF?
Odpowiedzi:
Niech będzie zmienną losową.
Rozróżnia się, która miara prawdopodobieństwa jest stosowana. W przypadku empirycznego CDF stosuje się miarę prawdopodobieństwa zdefiniowaną przez liczbę częstotliwości w próbce empirycznej.
Niech będzie zmienną losową oznaczającą wynik rzutu pojedynczą monetą, gdzie oznacza głowy, a oznacza ogony.
CDF za uczciwą monetę podaje:
Jeśli przerzucisz 2 głowy i 1 ogon, empiryczny CDF to:
Empiryczny CDF odzwierciedlałby to, że w twojej próbce twoich przewrotów było głowami.
Niech będzie zmienną losową o rozkładzie normalnym ze średnią i odchyleniem standardowym .
CDF jest przyznawany przez:
Powiedzmy, że miałeś 3 losowania IID i wartości . Empiryczny CDF to:
Przy wystarczającej liczbie losowań IID (i spełnione są pewne warunki prawidłowości), empiryczny CDF zbiegłby się z bazowym CDF populacji.
Czy jest jakaś różnica między Empirical CDF a CDF?
Tak, są różne. Empiryczny plik cdf jest właściwym plikiem cdf, ale empiryczne pliki cdf będą zawsze dyskretne, nawet jeśli nie zostaną pobrane z rozkładu dyskretnego, podczas gdy plik cdf rozkładu może być czymś innym niż dyskretnym.
Jeśli traktujesz próbkę tak, jakby była populacją wartości, z których każda jest równie prawdopodobna (tj. Umieści prawdopodobieństwo 1 / n na każdej obserwacji), to cdf tego rozkładu będzie ECDF danych.
Dlaczego nazywa się „Empiryczny”?
Jest to szacunkowa liczba ludności cdf na podstawie próby; szczególnie jeśli traktujesz proporcje próbki dla każdej odrębnej wartości danych i traktujesz ją tak, jakby to było prawdopodobieństwo w populacji, otrzymujesz ECDF.
Empiryczny ma znaczenie coś w rodzaju „poprzez obserwację, a nie teorię”, i właśnie to w tym przypadku oznacza… wykorzystanie obserwacji do określenia funkcji rozkładu.
Empiryczny CDF jest zbudowany z rzeczywistego zestawu danych (na poniższym wykresie użyłem 100 próbek ze standardowego rozkładu normalnego). CDF to konstrukcja teoretyczna - zobaczyłbyś ją, gdybyś mógł pobrać nieskończenie wiele próbek.
Empiryczny CDF zwykle dość dobrze przybliża CDF, szczególnie w przypadku dużych próbek (w rzeczywistości istnieją twierdzenia o tym, jak szybko zbiega się on z CDF wraz ze wzrostem wielkości próbki).
Empiryczny to coś, co budujesz na podstawie danych i obserwacji. Załóżmy na przykład, że chcesz wiedzieć o rozkładzie wysokości osób w danym kraju. Zaczynasz od mierzenia ludzi i tworzysz histogram, który można przybliżyć do rozkładu. Następnie obliczasz empiryczny CDF.
Jeśli używasz rozkładu statystycznego (formuła deterministyczna, która daje dokładnie taki sam wynik przy tych samych parametrach), możesz również obliczyć jego CDF.
Według Dictionary.com definicje „empirycznego” obejmują:
wywodzi się z doświadczenia lub eksperymentu lub kieruje się nim.
Stąd Empiryczny CDF to CDF, który otrzymujesz z twoich danych. Kontrastuje to z teoretycznym CDF (często nazywanym „CDF”), który jest uzyskiwany z modelu statystycznego lub probabilistycznego, takiego jak rozkład normalny.