Definicja rodziny dystrybucji?

Czy rodzina dystrybucji ma inną definicję statystyki niż w innych dyscyplinach?

Ogólnie rodzina krzywych jest zbiorem krzywych, z których każda jest podana przez funkcję lub parametryzację, w której zmienia się jeden lub więcej parametrów. Takie rodziny są wykorzystywane na przykład do charakteryzowania komponentów elektronicznych .

W przypadku statystyki rodzina według jednego źródła jest wynikiem zmiany parametru kształtu. Jak zatem możemy zrozumieć, że rozkład gamma ma parametr kształtu i skali, a jedynie uogólniony rozkład gamma ma dodatkowo parametr lokalizacji? Czy to sprawia, że rodzina jest wynikiem zmiany parametru lokalizacji? Według @whuber znaczenie rodziny jest domyślnie „Parametryzacja” rodziny jest ciągłą mapą z podzbioru ℝ , ze zwykłą topologią, w przestrzeń rozkładów, których obraz jest tą rodziną. $^n$

Czym w prostym języku jest rodzina rozkładów statystycznych?

Pytanie o relacje między właściwościami statystycznymi rozkładów z tej samej rodziny wywołało już wiele kontrowersji w związku z innym pytaniem, więc warto zbadać znaczenie.

To, że niekoniecznie jest to proste pytanie, rodzi się z jego użycia w wyrażeniu rodzina wykładnicza , która nie ma nic wspólnego z rodziną krzywych, ale jest związana ze zmianą formy PDF rozkładu poprzez zmianę parametrów nie tylko parametrów , ale także podstawienie funkcji niezależnych zmiennych losowych.

— Carl
źródło

Frazując „rodzina dystrybucji”, masz na myśli coś jeszcze „rodzinę dystrybucji”? Rodzina wykładnicza to rodzina rozkładów (z pewnymi właściwościami), a interpretująca pdf każdego rozkładu jako krzywą, odpowiada nawet rodzinie krzywych, więc ostatnie akapity wydają się mylone.

— Juho Kokkala

@JuhoKokkala Wydaje się to mylące, ponieważ znaczenie „rodziny” zależy od kontekstu. Na przykład normalny rozkład nieznanej średniej i znanej wariancji występuje w rodzinie wykładniczej. Rozkład normalny ma nieskończone wsparcie,

(- \infty, + \infty)

$(-\infty,+\infty)$ , a rozkład wykładniczy ma częściowo nieskończone wsparcie,

[0, + \infty)

$[0,+\infty)$ , więc nie ma rodziny krzywych dla rozkładu wykładniczego obejmującego zakres normalnego dystrybucja, nigdy nie mają tego samego kształtu ...

— Carl

@JuhoKokkala ... i wykładniczy plik PDF nie ma nawet parametru lokalizacji, podczas gdy normalny rozkład nie może się bez niego obejść. Zobacz powyższy link, aby uzyskać potrzebne podstawienia i kontekst, w którym normalny plik pdf znajduje się w rodzinie wykładniczej.

— Carl

statystyki.stackexchange.com/questions/129990/... mogą być istotne. „normalny rozkład nieznanej średniej i znanej wariancji występuje w rodzinie wykładniczej” jest, o ile wiem, nadużyciem terminologii (choć dość powszechnym). Mówiąc ściślej, rodzina wykładnicza to rodzina rozkładów o określonych właściwościach. Rodzina rozkładów normalnych o nieznanej średniej i wariancji znany jest wykładnicza rodzina; rodzina rozkładów wykładniczych to kolejna rodzina wykładnicza itp.

— Juho Kokkala,

@JuhoKokkala: Ta „rodzina” jest tak często (ab) używana, w szczególnym przypadku, aby oznaczać „zbiór rodzin”, być może warto wyciągnąć inną odpowiedź. (Nie mogę myśleć o innych sprawach - z jakiegoś powodu wydaje się, nikt na skłonność do mówienia o „ tej rodziny lokalizacja skalę”.)

— Scortchi - dozbrojenie Monica

Odpowiedzi:

Pojęcia statystyczne i matematyczne są dokładnie takie same, przy założeniu, że „rodzina” jest ogólnym terminem matematycznym z technicznymi odmianami dostosowanymi do różnych okoliczności:

Rodzina parametryczna to krzywa (lub jej powierzchniowe lub inne uogólnione wymiarowo) w przestrzeni wszystkich rozkładów.

Reszta tego postu wyjaśnia, co to znaczy. Nawiasem mówiąc, nie sądzę, aby którekolwiek z tych kwestii było kontrowersyjne, zarówno matematycznie, jak i statystycznie (oprócz jednego drobnego problemu, o którym mowa poniżej). Na poparcie tej opinii podałem wiele odniesień (głównie do artykułów z Wikipedii).

Ta terminologia „rodzin” jest zwykle stosowana podczas badania klas funkcji w zestawie lub „mapach”. Biorąc pod uwagę domenę , rodzina map na sparametryzowana przez jakiś zestaw („parametry”) jest funkcją $\mathcal C_Y$ $Y$ $X$ $\mathcal F$ $X$ $\Theta$

F : X \times Θ \to Y

$\mathcal F : X\times \Theta\to Y$

dla których (1) dla każdego funkcja podana przez jest w a (2) samo ma pewne „ładne” właściwości. $\theta\in\Theta$ $\mathcal{F}_\theta:X\to Y$ $\mathcal{F}_\theta(x)=\mathcal{F}(x,\theta)$ $\mathcal{C}_Y$ $\mathcal F$

Chodzi o to, że chcemy zmieniać funkcje od do w sposób „płynny” lub kontrolowany. Właściwość (1) oznacza, że każda oznacza taką funkcję, podczas gdy szczegóły właściwości (2) uchwycą sens, w którym „mała” zmiana wywołuje wystarczająco „małą” zmianę . $X$ $Y$ $\theta$ $\theta$ $\mathcal{F}_\theta$

Standardowym przykładem matematycznym, zbliżonym do wspomnianego w pytaniu, jest homotopia . W tym przypadku jest kategorią ciągłych map od przestrzeni topologicznych do przestrzeni topologicznej ; jest odstęp urządzenie z zwykle topologii i wymagają być ciągła na mapie z produktu topologicznej do . Można to uznać za „ciągłe deformowanie mapy $\mathcal{C}_Y$ $X$ $Y$ $\Theta=[0,1]\subset\mathbb{R}$ $\mathcal{F}$ $X \times \Theta$ $Y$ do "Gdy jest przedziałem, takie mapy sąkrzywymiw a homotopia jest gładkim odkształceniem od jednej krzywej do drugiej. $\mathcal{F}_0$ $\mathcal{F}_1$ $X=[0,1]$ $Y$

Dla zastosowań statystycznych jest zbiorem wszystkich rozkładów na (lub, w praktyce, na dla niektórych , ale dla uproszczenia opisu skupię się na ). Możemy to utożsamiać ze zbiorem wszystkich nie malejących funkcji càdlàg gdzie zamknięcie ich zakresu obejmuje zarówno jak i : są to skumulowane funkcje rozkładowe lub po prostu funkcje rozkładowe. Zatem i $\mathcal{C}_Y$ $\mathbb{R}$ $\mathbb{R}^n$ $n$ $n=1$ $\mathbb{R}\to [0,1]$ $0$ $1$ $X=\mathbb R$ . $Y=[0,1]$

Rodziny rozkładów jest dowolnym podzbiorem . $\mathcal{C}_Y$ Inną nazwą rodziny jest model statystyczny. Składa się ze wszystkich rozkładów, które, jak przypuszczamy, rządzą naszymi obserwacjami, ale nie wiemy, który rozkład jest właściwy.

Rodzina może być pusta.
sama jest rodziną. $\mathcal{C}_Y$
Rodzina może składać się z jednej dystrybucji lub tylko z ich skończonej liczby.

Te abstrakcyjne cechy zestawu teoretycznego są stosunkowo mało interesujące lub użyteczne. Ta koncepcja staje się użyteczna dopiero wtedy, gdy weźmiemy pod uwagę dodatkową (istotną) strukturę matematyczną na Ale jakie właściwości mają znaczenie statystyczne? Niektóre, które często się pojawiają to: $\mathcal{C}_Y$ $\mathcal{C}_Y$

jestzestawem wypukłym: biorąc pod uwagę dowolne dwa rozkłady , możemy utworzyćrozkład mieszaninydla wszystkich. Jest to rodzaj „homotopii” zdo. $\mathcal{C}_Y$ ${F}, {G}\in \mathcal{C}_Y$ $(1-t){F}+t{G}\in Y$ $t\in[0,1]$ $F$ $G$
Duże części obsługują różne pseudometryki, takie jak rozbieżność Kullbacka-Leiblera lub blisko związana metryka informacji Fisher. $\mathcal{C}_Y$
ma strukturę dodatków: odpowiadająca dowolnym dwóm rozkładuijest ich suma . $\mathcal{C}_Y$ $F$ $G$ ${F}\star {G}$
obsługuje wiele przydatnych, naturalnych funkcji, często nazywanych „właściwościami”. Obejmują one wszelkie ustalone kwantyle (takie jak mediana), a takżekumulanty. $\mathcal{C}_Y$
jest podzbioremprzestrzeni funkcji. Jako taki, dziedziczy wiele przydatnych wskaźników, takich jaksup norma(norma ) podana przez $\mathcal{C}_Y$ $L^\infty$
$| | F - G | |_{\infty} = sup_{x \in R} | F (x) - G (x) | .$ $||F-G||_\infty = \sup_{x\in\mathbb{R}}|F(x)-G(x)|.$
Naturalne działania grupa o wywołania działania na . Najczęstsze działania to tłumaczenia i skalowania dla . Wpływ, jaki mają one na rozkład, polega na wysłaniu do rozkładu podanego przez $\mathbb R$ $\mathcal{C}_Y$ $T_\mu:x \to x+\mu$ $S_\sigma:x\to x\sigma$ $\sigma\gt 0$ $F$ . Prowadzą one do koncepcji rodzin o skali lokalizacji i ich uogólnień. (Nie dostarczam referencji, ponieważ szeroko zakrojone wyszukiwania w sieci ujawniają wiele różnych definicji: tutaj przynajmniej może być trochę kontrowersji.) $F^{\mu,\sigma}(x) = F((x-\mu)/\sigma)$

Istotne właściwości zależą od problemu statystycznego i od tego, jak zamierzasz analizować dane. Zajęcie się wszystkimi wariantami sugerowanymi przez powyższe cechy zajęłoby zbyt dużo miejsca dla tego medium. Skupmy się na jednej wspólnej ważnej aplikacji.

Weźmy na przykład maksymalne prawdopodobieństwo. W większości aplikacji będziesz chciał móc korzystać z rachunku różniczkowego, aby uzyskać oszacowanie. Aby to zadziałało, musisz być w stanie „brać pochodne” w rodzinie.

( Pomijając kwestię techniczną: zwykłym sposobem osiągnięcia tego jest wybranie domeny dla i określenie ciągłej, lokalnie odwracalnej funkcji od do (Oznacza to, że dla każdego tam istnieje kula , gdzie dla których $\Theta\subset \mathbb{R}^d$ $d\ge 0$ $p$ $\Theta$ $\mathcal{C}_Y$ $\theta\in\Theta$ $B(\theta, \epsilon)$ $\epsilon\gt 0$ jest jeden do jednego. Innymi słowy, jeśli zmienimy o wystarczająco małą ilość, zawsze otrzymamy inny rozkład.)) $p\mid_{B(\theta,\epsilon)}: B(\theta,\epsilon)\cap \Theta \to \mathcal{C}_Y$ $\theta$

W związku z tym w większości aplikacji ML wymagamy, aby było ciągłe (i, miejmy nadzieję, prawie wszędzie różnicowalne) w komponencie . (Bez ciągłości maksymalizacja prawdopodobieństwa zwykle staje się trudnym problemem.) Prowadzi to do następującej definicji parametrycznej rodziny zorientowanej na prawdopodobieństwo : $p$ $\Theta$

Rodzina parametryczna rozkładów (jednowymiarowych) jest lokalnie odwracalną mapą gdzie , dla której (a) każde jest funkcją rozkładu i (b) dla każdego , funkcja podana przez
$F : R \times Θ \to [0, 1],$ $\mathcal{F}:\mathbb{R}\times\Theta \to [0,1],$ $\Theta\subset \mathbb{R}^n$ $\mathcal{F}_\theta$ $x\in\mathbb R$ $\mathcal{L}_x: \theta\to [0,1]$ $\mathcal{L}_x(\theta) = \mathcal{F}(x,\theta)$ jest ciągły i prawie wszędzie można go odróżnić.

Należy zauważyć, że rodzina parametryczna to więcej niż tylko zbiór : obejmuje również określony sposób, w jaki wartości parametrów odpowiadają rozkładom. $\mathcal F$ $\mathcal{F}_\theta$ $\theta$

Skończymy na kilku przykładowych przykładach.

Niech będzie zbiorem wszystkich rozkładów normalnych. Jak podano, nie jest to rodzina parametryczna: to tylko rodzina. Aby być parametrycznym, musimy wybrać parametryzację. Jednym ze sposobów jest wybór i odwzorowanie na rozkład normalny ze średnią i wariancją . $\mathcal{C}_Y$ $\Theta = \{(\mu,\sigma)\in\mathbb{R}^2\mid \sigma \gt 0\}$ $(\mu,\sigma)$ $\mu$ $\sigma^2$
Zbiór rozkładów Poissona $(\lambda)$ jest rodziną parametryczną o . $\lambda\in\Theta=(0,\infty)\subset\mathbb{R}^1$
Zestaw rozkładów Uniform (który jest wyraźnie widoczny w wielu ćwiczeniach podręcznikowych) jest rodziną parametryczną z . W tym przypadku jest różnicowalne w z wyjątkiem . $(\theta, \theta+1)$ $\theta\in\mathbb{R}^1$ $F_\theta(x) = \max(0, \min(1, x-\theta))$ $\theta$ $\theta\in\{x, x-1\}$
Niech i będą dowolnymi dwoma rozkładami. Zatem jest rodziną parametryczną dla . (Dowód: obraz jest zbiorem rozkładów i jego pochodną cząstkową w równa się $F$ $G$ $\mathcal{F}(x,\theta)=(1-\theta)F(x)+\theta G(x)$ $\theta\in[0,1]$ $\mathcal F$ $\theta$ który jest zdefiniowany wszędzie.) $-F(x)+G(x)$
Rodzina Pearson jest czterowymiarowa rodzina, , który obejmuje (między innymi) normalnego rozkładu, rozkład beta i rozkładów Inverse gamma. To ilustruje fakt, że dowolna dana dystrybucja może należeć do wielu różnych rodzin dystrybucji . Jest to całkowicie analogiczne do obserwowania, że dowolny punkt w (wystarczająco dużej) przestrzeni może należeć do wielu przecinających się tam ścieżek. To, wraz z poprzednią konstrukcją, pokazuje nam, że brak dystrybucji jednoznacznie określa rodzinę, do której należy. $\Theta\subset\mathbb{R}^4$
Rodzina wszystkich absolutnie ciągłych rozkładów wariancji skończonych nie jest parametryczna. Dowód wymaga głębokiej twierdzenie topologii: jeśli nadają z dowolnej topologii (czy statystycznie przydatne lub nie) i jest ciągła i lokalnie ma ciągłą odwrotność, a następnie lokalnie muszą mieć ten sam wymiar jak że z . Jednak we wszystkich statystycznie znaczących topologiach ma nieskończony wymiar. $\mathcal{C}_Y$ $\mathcal{C}_Y$ $p: \Theta\to\mathcal{C}_Y$ $\mathcal{C}_Y$ $\Theta$ $\mathcal{C}_Y$

— Whuber
źródło

Przetłumaczenie twojej odpowiedzi zajmie mi około dnia. Będę musiał żuć powoli. Tymczasem dziękuję.

— Carl

(+1) OK, I slogged through it. So is

F : R \times Θ \to [0, 1]

$\mathcal{F}:\mathbb{R}\times\Theta \to [0,1]$ a Polish space or not? Can we do a simple answer so people know how to avoid using the word family improperly, please. @JuhoKokkala related, for example, that Wikipedia abused language in their exponential family, that needs clarification.

— Carl

Doesn't the second sentence of this answer serve that request for simplicity?

— whuber

IMHO, however uninformed, no, it does not due to incompleteness, it doesn't say what a family isn't. The concept "in the space of all distributions" seems to relate to statistics only.

— Carl

I have accepted your answer. You have enough information in it that I could apply it to the question in question.

— Carl

To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.

— Scortchi - Reinstate Monica
źródło

Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."

From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair $( S , P )$ , where $S$ is the set of possible observations, i.e., the sample space, and $P$ is a set of probability distributions on $S$ .

Suppose that we have a statistical model $(S, \mathcal{P})$ with $\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$ . The model is said to be a Parametric model if $\Theta$ has a finite dimension. In notation, we write that $\Theta \subseteq \mathbb{R}^d$ where $d$ is a positive integer ( $\mathbb{R}$ denotes the real numbers; other sets can be used, in principle). Here, $d$ is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that

P = {P_{μ, σ} (x) \equiv \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}}) : μ \in R, σ > 0} .

$\mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\}.$ In this example, the dimension,

d

$d$ , equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, $\mu=0$ , we can show a family of curves by plotting $\sigma=1,2,3,4,5$ or whatever choices for $\sigma$ .

— Carl
źródło