W kategoriach laika jaka jest różnica między modelem a dystrybucją?

28

Odpowiedzi (definicje) zdefiniowane na Wikipedii są prawdopodobnie nieco tajemnicze dla osób niezaznajomionych z wyższą matematyką / statystyką.

W kategoriach matematycznych model statystyczny jest zwykle uważany za parę ( ), gdzie jest zbiorem możliwych obserwacji, tj. Przestrzenią próbki, a jest zbiorem rozkładów prawdopodobieństwa o . $S, \mathcal{P}$ $S$ $\mathcal{P}$ $S$

W prawdopodobieństwie i statystyce rozkład prawdopodobieństwa przypisuje prawdopodobieństwo każdemu mierzalnemu podzbiorowi możliwych wyników losowego eksperymentu, ankiety lub procedury wnioskowania statystycznego. Znaleziono przykłady, których przestrzeń próbki jest nienumeryczna, gdzie rozkład byłby rozkładem kategorycznym.

Jestem licealistką bardzo zainteresowaną tą dziedziną jako hobby i obecnie walczę z różnicami między tym, co jest statistical modelaprobability distribution

Moje obecne i bardzo podstawowe zrozumienie jest następujące:

modele statystyczne są matematycznymi próbami aproksymacji zmierzonych rozkładów
rozkłady prawdopodobieństwa są mierzonymi opisami z eksperymentów, które przypisują prawdopodobieństwa każdemu możliwemu wynikowi losowego zdarzenia

zamieszanie jest dodatkowo potęgowane przez tendencję w literaturze, aby słowa „rozkład” i „model” były używane zamiennie - lub przynajmniej w bardzo podobnych sytuacjach (np. rozkład dwumianowy vs. model dwumianowy)

Czy ktoś może zweryfikować / skorygować moje definicje i być może zaoferować bardziej sformalizowane (choć wciąż pod względem prostego angielskiego) podejście do tych pojęć?

distributions model terminology

— AlanSTACK
źródło

1

Konkluzja: absolutnie nie ma różnicy między modelem statystycznym a rozkładem prawdopodobieństwa. Każdy model statystyczny opisuje rozkład prawdopodobieństwa i odwrotnie. Nie pozwól im mylić cię długimi tekstami.

— Cagdas Ozgenc

3

@Cagdas Zgodnie z definicją przywołane w pytaniu, nie ma różnicy: model statystyczny jest szczególnie zorganizowany zbiór rozkładów prawdopodobieństwa. Gdy widoczny jest tylko jeden rozkład prawdopodobieństwa, nie robimy już statystyk, ponieważ cel analizy statystycznej został osiągnięty: znamy rozkład!

— whuber

2

@cagdas Wikipedia zachowuje towarzystwo najlepszych tekstów. W pełni się z tym zgadzam.

— whuber

4

@CagdasOzgenc, dlaczego nie przedstawić pewnych dowodów na potwierdzenie swoich ostrych i jednoznacznych roszczeń. Dowód władz jest rzadko (jeśli w ogóle) akceptowany. Bez eivdence trudno jest (jeśli nie jest to niemożliwe) prowadzić produktywną dyskusję; bezpodstawne twierdzenia rzadko są czymś więcej niż hałasem.

— Richard Hardy

2

@RichardHardy Pytanie zadało „laikowi warunki” i spójrz na odpowiedzi, które otrzymał. Przepraszam, ale nienawidzę patrzeć, jak studenci cierpią tylko dlatego, że ktoś decyduje się popisać. Odpowiedź jest tak prosta jak 2 + 2 = 4 i naprawdę nie sądzę, że wymaga 20-stronicowego autorytatywnego odniesienia.

— Cagdas Ozgenc

25

Rozkład prawdopodobieństwa jest funkcją matematyczną opisującą zmienną losową. Nieco dokładniej jest to funkcja, która przypisuje prawdopodobieństwa liczbom, a jej wynik musi być zgodny z aksjomatami prawdopodobieństwa .

Model statystyczny to abstrakcyjny, wyidealizowany opis niektórych zjawisk w kategoriach matematycznych z wykorzystaniem rozkładów prawdopodobieństwa. Cytując Wassermana (2013):

Model statystyczny jest zbiorem (lub rozkładu gęstości i funkcji regresji). Modelem parametrycznym jest zestaw , które mogą być programowane przez skończoną liczbę parametrów. [...] $\mathfrak{F}$ $\mathfrak{F}$

Zasadniczo model parametryczny przyjmuje formę

$F = {f (x; θ) : θ \in Θ}$ $\mathfrak{F} = \{ f (x; \theta) : \theta \in \Theta \}$
gdzie jest nieznanym parametrem (lub wektorem parametrów), który może przyjmować wartości w przestrzeni parametrów . Jeśli jest wektorem, ale interesuje nas tylko jeden składnik , pozostałe parametry nazywamy parametrami uciążliwymi . Nieparametryczny modelu jest zestaw , które nie mogą być programowane przez skończoną liczbę parametrów. $\theta$ $\Theta$ $\theta$ $\theta$ $\mathfrak{F}$

W wielu przypadkach używamy dystrybucji jako modeli (możesz sprawdzić ten przykład ). Możesz użyć rozkładu dwumianowego jako modelu liczenia głów w serii rzutów monetą. W takim przypadku zakładamy, że ten rozkład opisuje w uproszczony sposób rzeczywiste wyniki. Nie oznacza to, że jest to jedyny sposób na opisanie takiego zjawiska, ani że rozkład dwumianowy jest czymś, co można wykorzystać tylko w tym celu. Model może używać jednego lub więcej rozkładów, podczas gdy modele bayesowskie określają również wcześniejsze rozkłady.

Bardziej formalnie omawia to McCullaugh (2002):

Zgodnie z obecnie akceptowanymi teoriami [Cox and Hinkley (1974), Rozdział 1; Lehmann (1983), rozdział 1; Barndorff-Nielsen i Cox (1994), sekcja 1.1; Bernardo i Smith (1994), rozdział 4] model statystyczny jest zbiorem rozkładów prawdopodobieństwa w przestrzeni próbkowej . Sparametryzowany model statystyczny to parametr ustawiony razem z funkcją , która przypisuje do każdego punktu parametru a rozkład prawdopodobieństwa on . Tutaj jest zbiorem wszystkich rozkładów prawdopodobieństwa $\mathcal{S}$ $\Theta$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $\mathcal{\theta \in \Theta}$ $P \theta$ $\mathcal{S}$ $\mathcal{P}(\mathcal{S})$ $\mathcal{S}$ . W wielu poniższych kwestiach ważne jest rozróżnienie modelu jako funkcji i powiązanego zestawu dystrybucji . $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $P\Theta \subset \mathcal{P} (\mathcal{S})$

Dlatego modele statystyczne wykorzystują rozkłady prawdopodobieństwa do opisywania danych w ich kategoriach. Modele parametryczne są również opisane w kategoriach skończonego zestawu parametrów.

Nie oznacza to, że wszystkie metody statystyczne wymagają rozkładów prawdopodobieństwa. Na przykład regresja liniowa jest często opisywana w kategoriach założenia normalności , ale w rzeczywistości jest dość odporna na odstępstwa od normalności i potrzebujemy założenia o normalności błędów dla przedziałów ufności i testowania hipotez. Aby regresja działała, nie potrzebujemy takiego założenia, ale aby mieć w pełni określony model statystyczny, musimy opisać go za pomocą zmiennych losowych, więc potrzebujemy rozkładów prawdopodobieństwa. Piszę o tym, ponieważ często można usłyszeć, jak ludzie mówią, że użyli modelu regresji dla swoich danych - w większości przypadków oznaczają raczej, że opisują dane w kategoriach liniowej zależności między wartościami docelowymi a predyktorami przy użyciu niektórych parametrów, niż naleganie na warunkowe normalność.

McCullagh, P. (2002). Co to jest model statystyczny? Kroniki statystyczne, 1225–1267.

Wasserman, L. (2013). Wszystkie statystyki: zwięzły kurs wnioskowania statystycznego. Skoczek.

— Tim
źródło

4

@ JCLeitão dlatego dodałem zawiadomienie;) Klasyczny OLS polega tylko na dopasowaniu linii. Założenia normalności dotyczą tylko szumu, podczas gdy podstawową ideą jest to, że modelujemy E (y) jako funkcję liniową X. Normalność jest potrzebna do przedziałów ufności i testowania, ale regresja polega na dopasowaniu linii, a błędy mają mniejsze znaczenie. (Luźno mówiąc)

— Tim

Dziękuję za Twoją odpowiedź. Czy możesz podać 2 zwięzłe definicje do podsumowania? (też nie rozumiem ostatniego wiersza

In much of the following, it is important to distinguish between the model as a function and the associated set of distributions

) Czy tylko komentujesz wewnętrzną dwuznaczność między tymi dwoma znaczeniami, które dzielą ten sam termin, modelczy coś mi brakuje?

— AlanSTACK

@W dwóch pierwszych akapitach podano dwie zwięzłe definicje, a bardziej rygorystyczne w cytacie i odnośnikach - czy możesz wyjaśnić, co jest niejasne? Co do ostatniego wiersza cytatu: w zasadzie mówi, że model jest zdefiniowany w kategoriach rozkładów prawdopodobieństwa i parametrów i dobrze jest pamiętać, że ma te dwa aspekty, czasem dobrze jest je rozróżnić. Cytowany artykuł polecam do szczegółowej dyskusji (jest dostępny bezpłatnie pod linkiem).

— Tim

8

Pomyśl o jako zestawie biletów . Możesz pisać rzeczy na bilecie. Zwykle bilet zaczyna się od imienia osoby lub obiektu w świecie rzeczywistym, który „reprezentuje” lub „modeluje”. Na każdym bilecie jest dużo wolnego miejsca na pisanie innych rzeczy. $\mathcal{S}$

Możesz wykonać tyle kopii każdego biletu, ile chcesz. Model prawdopodobieństwa dla tej populacji świata rzeczywistego lub procesu polega na wykonaniu jednego lub więcej kopii każdego biletu, mieszając je i umieszczając je w pudełku. Jeśli ty - analityk - potrafisz ustalić, że proces losowego losowania jednego biletu z tego pola naśladuje wszystkie ważne zachowania tego, czego się uczysz, wtedy możesz dowiedzieć się wiele o świecie, myśląc o tym polu. Ponieważ niektóre bilety mogą być liczniejsze w pudełku niż inne, mogą mieć różne szanse na wylosowanie. Teoria prawdopodobieństwa bada te szanse. $\mathbb{P}$

Gdy liczby są zapisywane na biletach (w spójny sposób), powodują one rozkład (prawdopodobieństwa). Rozkład prawdopodobieństwa jedynie opisuje część biletów w pudełku, którego numery mieszczą się w danym przedziale czasu.

Ponieważ zwykle nie wiemy dokładnie, jak zachowuje się świat, musimy sobie wyobrazić różne skrzynki, w których bilety pojawiają się z różnymi częstotliwościami względnymi. Zestaw tych pól to . Uważamy, że świat jest odpowiednio opisany przez zachowanie jednego z pól w . Twoim celem jest racjonalne odgadnięcie, które to pudełko, na podstawie tego, co widzisz na biletach, które wyciągnąłeś z niego. $\mathcal{P}$ $\mathcal{P}$

Jako przykład , (który jest praktyczny i realistyczna nie zabawka podręcznik) załóżmy, że badania szybkości reakcji chemicznej, jak to zmienia się wraz z temperaturą. Załóżmy, że teoria chemii przewiduje, że w zakresie temperatur od do stopni szybkość jest proporcjonalna do temperatury. $y$ $0$ $100$

Planujesz zbadać tę reakcję zarówno w temperaturze jak i stopni, dokonując kilku obserwacji w każdej temperaturze. Tworzysz zatem bardzo, bardzo dużą liczbę pudełek. Wypełnisz każde pudełko biletami. Na każdym zapisana jest stała szybkości. Wszystkie bilety w danym polu mają zapisaną tę samą stałą stawki. Różne pola używają różnych stałych szybkości. $0$ $100$

Używając stałej szybkości zapisanej na dowolnym bilecie, zapisujesz również stawkę przy i stawkę przy stopniach: zadzwoń do tych i . Ale to jeszcze nie wystarczy na dobry model. Chemicy wiedzą również, że żadna substancja nie jest czysta, żadna ilość nie jest dokładnie mierzona i występują inne formy zmienności obserwacyjnej. Aby wymodelować te „błędy”, wykonujesz bardzo, bardzo wiele kopii swoich biletów. Na każdej kopii zmieniasz wartości i . W większości z nich zmieniasz je tylko trochę. W niektórych przypadkach możesz je bardzo zmienić. Zapisujesz tyle zmienionych wartości, ile planujesz zaobserwować w każdej temperaturze. Te obserwacje przedstawiają możliwe $0$ $100$ $y_0$ $y_{100}$ $y_0$ $y_{100}$ obserwowalne wyniki eksperymentu. W polu przejść każdy taki zestaw tych biletów: jest to model prawdopodobieństwa do czego może obserwować dla danej stałej szybkości.

To, co obserwujesz, jest modelowane poprzez wyciągnięcie biletu z tego pudełka i przeczytanie tylko zapisanych tam obserwacji. Nie zobaczysz podstawowych (prawdziwych) wartości lub . Nie można odczytać (prawdziwej) stałej szybkości. Nie są one dostępne w twoim eksperymencie. $y_0$ $y_{100}$

Każdy model statystyczny musi przyjmować pewne założenia dotyczące biletów w tych (hipotetycznych) polach. Na przykład, mamy nadzieję, że kiedy zmodyfikujesz wartości i , zrobiłeś to bez konsekwentnego zwiększania lub konsekwentnego zmniejszania jednego (jako całości, w ramce): byłoby to formą systematycznego uprzedzenia. $y_0$ $y_{100}$

Ponieważ obserwacje zapisane na każdym bilecie są liczbami, powodują rozkład prawdopodobieństwa. Założenia dotyczące pól są zazwyczaj sformułowane w kategoriach właściwości tych rozkładów, takich jak to, czy muszą one uśredniać do zera, być symetryczne, mieć kształt „krzywej dzwonowej”, są nieskorelowane lub cokolwiek innego.

To naprawdę wszystko. Podobnie jak prymitywna dwunastotonowa skala dała początek zachodniej muzyce klasycznej, kolekcja pudełek z biletami to prosta koncepcja, którą można wykorzystać w niezwykle bogaty i złożony sposób. Może modelować niemal wszystko, od rzutu monetą po bibliotekę filmów, bazy danych interakcji z witryną, zespoły mechaniki kwantowej i wszystko, co można zaobserwować i nagrać.

— Whuber
źródło

3

Definicja rozkładu jako przyporządkowania prawdopodobieństwa każdemu możliwemu zdarzeniu działa w przypadku rozkładu dyskretnego, ale staje się trudniejsza w przypadku ciągłych rozkładów, gdzie np. Wynikiem może być dowolna liczba na linii rzeczywistej. Bardzo często, gdy mówimy o rozkładach, myślimy o nich jako posiadające stałe parametry, takie jak dwumianowy rozkład mającego dwa parametry: po pierwsze, liczba obserwacji, a po drugie prawdopodobieństwo pojedynczej obserwacji jest wydarzeniem. $\pi$

Typowe parametryczne modele statystyczne opisują, w jaki sposób parametr (parametry) rozkładu zależą od pewnych rzeczy, takich jak czynniki (zmienna o dyskretnych wartościach) i zmienne towarzyszące (zmienne ciągłe). Na przykład, jeśli w rozkładzie normalnym założymy, że średnią można opisać pewną stałą liczbą („punkt przecięcia”) i pewną liczbą („współczynnik regresji”) pomnożoną przez wartość zmiennej towarzyszącej, otrzymujemy model regresji liniowej z zwykle rozkład błędu. W przypadku rozkładu dwumianowego jednym z powszechnie stosowanych modeli („regresja logistyczna”) jest założenie, że logit prawdopodobieństwa zdarzenia ( ) można opisać równaniem regresji, takim jak $\pi$ $\pi/(1-\pi)$ $\text{intercept}+\beta_1 \text{covariate}_1+\ldots$ . Podobnie w przypadku rozkładu Poissona wspólny model zakłada to dla logarytmu parametru szybkości („regresja Poissona”).

— Björn
źródło

2

Tak, ale ... Model dotyczy nie tylko parametrów, ale może także dotyczyć struktury problemu (np. Model probabilistyczny, który przypomina zakładany proces generowania danych); istnieją również modele nieparametryczne.

— Tim

2

Rozkład prawdopodobieństwa podaje wszystkie informacje o tym, jak zmienia się wielkość losowa. W praktyce zazwyczaj nie mamy pełnego rozkładu prawdopodobieństwa naszej ilości odsetek. Możemy coś o tym wiedzieć lub zakładać, nie wiedząc ani nie zakładając, że wiemy o tym wszystko. Na przykład możemy założyć, że pewna ilość jest normalnie rozłożona, ale nic nie wiemy o średniej i wariancji. Następnie mamy kolekcję kandydatów do dystrybucji do wyboru; w naszym przykładzie są to wszystkie możliwe normalne rozkłady. Ten zbiór rozkładów tworzy model statystyczny. Używamy ich, zbierając dane, a następnie ograniczając naszą klasę kandydatów, tak aby wszyscy pozostali kandydaci byli zgodni z danymi w odpowiednim sensie.

— Ian
źródło

2

Model jest określony przez plik PDF, ale nie jest to plik PDF.

Rozkład prawdopodobieństwa (PDF) to funkcja, która przypisuje prawdopodobieństwa liczbom, a jego wynik musi być zgodny z aksjomatami prawdopodobieństwa, jak wyjaśnił Tim .

Model jest w pełni zdefiniowany przez rozkład prawdopodobieństwa, ale jest czymś więcej. W przykładzie rzutu monetą naszym modelem może być „moneta jest uczciwa” + „każdy rzut jest niezależny”. Ten model jest określony przez plik PDF, który jest dwumianowy przy p = 0,5.

Można jednak wyobrazić sobie model, w którym rzuty nie są niezależne, w którym to przypadku nie jest już opisany przez dwumianowy plik PDF. Nadal model jest określony przez łączną dystrybucję (PDF) wszystkich zdarzeń . Chodzi o to, że formalnie model jest zawsze określony przez łączny rozkład zdarzeń. $P(x_1, x_2, x_3, ...)$

Jedną różnicą między modelem a plikiem PDF jest to, że model można interpretować jako hipotezę statystyczną. Na przykład, podrzucając monety, możemy wziąć pod uwagę model, w którym moneta jest uczciwa (p = 0,5) i że każdy rzut jest niezależny (dwumianowy), i powiedzieć, że to nasza hipoteza, którą chcemy przetestować na tle konkurencyjnej hipotezy .

Możesz także mieć konkurencyjne modele (np. Nie znamy i chcemy obliczyć, które jest najlepsze). Mówienie o konkurencyjnych plikach PDF nie ma sensu, ponieważ są one tylko obiektem matematycznym. $p$ $p$

— Jorge Leitao
źródło

Czy możesz rozwinąć swoje ostatnie zdanie? Wydaje mi się, że jest to główna część statystyki nieparametrycznej.

— Ian

Zawsze interpretowałem modele nieparametryczne jako mniej restrykcyjne w stosunku do pliku PDF x_i, ale nadal wymagają one pliku PDF do statystyk, których używają. Np. Korelacja rang Kendala zakłada normalność do obliczenia wartości p . Ale może być tak, że istnieje przeciwny przykład. Byłbym zainteresowany.

— Jorge Leitao

Po prostu nie rozumiem, co masz na myśli, mówiąc „nie ma sensu mówić o konkurencyjnych plikach PDF”. Właśnie tak naprawdę robimy, nawet w statystykach parametrycznych: mamy kilka plików PDF, które naszym zdaniem mogą być właściwe dla problemu, pobieramy pewne dane i na podstawie danych wyciągamy wniosek, że niektóre podzbiory naszych plików PDF są lepsze. Następnie określamy ilościowo, co rozumiemy przez „lepszy”. (Ponadto, w kontekście elementarnym, naprawdę nie powinieneś używać „PDF” do wszystkiego. W sensie dystrybucyjnym to ostatecznie działa, ale jest to dość skomplikowana maszyneria ...)

— Ian

A model is specified by a PDFNie zgadzam się. Model może być również określony przez wiele plików PDF. Model może nie zostać określony przez brak pliku PDF: pomyśl o czymś takim jak SVM lub drzewo regresji.

— Ricardo Cruz

2

Zadajesz bardzo ważne pytanie, Alan, a powyżej otrzymałeś kilka dobrych odpowiedzi. Chciałbym zaoferować prostszą odpowiedź, a także wskazać dodatkowy wymiar rozróżnienia, którego nie dotyczyły powyższe odpowiedzi. Dla uproszczenia wszystko, co powiem tutaj, dotyczy parametrycznych modeli statystycznych.

Przede wszystkim może się okazać, że pomysł rodziny jest pomocny w połączeniu pytania z rzeczami, których nauczyłeś się w szkole średniej. (Dziwię się, że to słowo jeszcze nie pojawiło się na tej stronie!) Dawno temu dowiedziałeś się o kwadratowej rodzinie krzywych, . Parametryczny model statystyczny można traktować w ten sam sposób, jak rodzinę rozkładów . Prawdopodobnie przeprowadziłeś eksperymenty laboratoryjne na lekcjach chemii lub fizyki, w których zebrałeś dane i wykreśliłeś je w celu zidentyfikowania parametrów z prostej rodziny modeli, takich jak lub . Na najwyższym poziomie oszacowanie parametrów modelu statystycznego bardzo przypomina proces znajdowania nachylenia $y = a x^2 + b x + c$ $y = m x + b$ $F = -k x$ $m$ przechwytuje , lub znajduje stałą sprężyny . Kontynuując naukę matematyki, zobaczysz wszędzie „rodziny” różnego rodzaju bytów. $b$ $k$

Tak więc moja krótka odpowiedź nr 1 na twoje pytanie brzmi: model statystyczny jest rodziną rozkładów.

Kolejny punkt, który chciałem poruszyć, dotyczy kwalifikatora - statystyki . Jak zauważa Judea Pearl w swojej „złotej regule analizy przyczynowej” [1, s350],

Żadne twierdzenie o związku przyczynowym nie może być ustalone za pomocą metody czysto statystycznej, czy to oceny skłonności, regresji, stratyfikacji, czy jakiegokolwiek innego projektu opartego na rozkładzie.

(Dla celów obecnych zapraszam do przeczytania „statystyki” zamiast „opartej na rozkładzie” i „modelu” zamiast „projektu”). Pearl pragnie przekazać, że nasze modele efektów przyczynowych w świat ( na przykład !) koniecznie zawiera więcej niż idee czysto statystyczne . Tak więc, biorąc twoje pytanie pod tytułem --- tj. Bez statystyk kwalifikacyjnych dołączonych do modelu --- pełna odpowiedź wymaga dalszego ostrzeżenia, że modele zazwyczaj zawierają idee przyczynowe, które leżą z natury poza prowincją statystyki, tj. Stwierdzeń o rozkładach prawdopodobieństwa . $F=-kx$

Zatem moja odpowiedź nr 2 na twoje pytanie brzmi: modele zwykle zawierają idee przyczynowe, których nie można wyrazić w kategoriach czysto dystrybucyjnych.

[1]: Pearl, Judea. Przyczynowość: modele, uzasadnienie i wnioskowanie. 2. edycja Cambridge, Wielka Brytania; New York: Cambridge University Press, 2009. Link do § 11.3.5, w tym cyt. 351.

— David C. Norris
źródło

Wybacz mi moją ignorancję, ale co masz na myśli przez słowo causal? Czy ma to jakieś bardziej niuansowe znaczenie, czy po prostu odnosi się do pojęcia causalityi relacji między causesi effects? Dziękuję za odpowiedź, btw.

— AlanSTACK

Wiedza przyczynowa obejmuje efekty interwencji . Jeśli masz wiedzę przyczynową, to wiesz, jak jakiś system zareaguje na twoje działanie . (Por. Powszechny refren: „skojarzenie nie jest przyczynowością”). Jednym ze sposobów na docenienie, jak wiedza przyczynowa leży poza prowincją zwykłych statystyk, jest wzięcie pod uwagę przykładu Prawa Hooke'a, który cytowałem powyżej. W zależności od sposobu użycia sprężyny (np. W skali ryb w porównaniu do sprężynowego pistoletu zabawkowego), może powodować lub odwrotnie. Jednak jest tu ambiwalentny do związku przyczynowego (ponieważ jest relacją symetryczną).

F

$F$

x

$x$

F = - k x

$F=-kx$

=

$=$

— David C. Norris