Pojęcia statystyczne i matematyczne są dokładnie takie same, przy założeniu, że „rodzina” jest ogólnym terminem matematycznym z technicznymi odmianami dostosowanymi do różnych okoliczności:
Rodzina parametryczna to krzywa (lub jej powierzchniowe lub inne uogólnione wymiarowo) w przestrzeni wszystkich rozkładów.
Reszta tego postu wyjaśnia, co to znaczy. Nawiasem mówiąc, nie sądzę, aby którekolwiek z tych kwestii było kontrowersyjne, zarówno matematycznie, jak i statystycznie (oprócz jednego drobnego problemu, o którym mowa poniżej). Na poparcie tej opinii podałem wiele odniesień (głównie do artykułów z Wikipedii).
Ta terminologia „rodzin” jest zwykle stosowana podczas badania klas funkcji w zestawie Y lub „mapach”. Biorąc pod uwagę domenę X , rodzina F map na X sparametryzowana przez jakiś zestaw Θ („parametry”) jest funkcjąCYYX FX Θ
F:X×Θ→Y
dla których (1) dla każdego funkcja F θ : X → Y podana przez F θ ( x ) = F ( x , θ ) jest w C Y, a (2) samo F ma pewne „ładne” właściwości.θ∈ΘFθ:X→YFθ(x)=F(x,θ)CYF
Chodzi o to, że chcemy zmieniać funkcje od do Y w sposób „płynny” lub kontrolowany. Właściwość (1) oznacza, że każda θ oznacza taką funkcję, podczas gdy szczegóły właściwości (2) uchwycą sens, w którym „mała” zmiana θ wywołuje wystarczająco „małą” zmianę F θ .XYθθFθ
Standardowym przykładem matematycznym, zbliżonym do wspomnianego w pytaniu, jest homotopia . W tym przypadku jest kategorią ciągłych map od przestrzeni topologicznych X do przestrzeni topologicznej Y ; Θ = [ 0 , 1 ] ⊂ R jest odstęp urządzenie z zwykle topologii i wymagają F być ciągła na mapie z produktu topologicznej X x Θ do Y . Można to uznać za „ciągłe deformowanie mapy F.CY XYΘ=[0,1]⊂RFX×ΘY do F 1. "Gdy X = [ 0 , 1 ] jest przedziałem, takie mapy sąkrzywymiw Y, a homotopia jest gładkim odkształceniem od jednej krzywej do drugiej.F0F1X=[0,1]Y
Dla zastosowań statystycznych jest zbiorem wszystkich rozkładów na R (lub, w praktyce, na R n dla niektórych n , ale dla uproszczenia opisu skupię się na n = 1 ). Możemy to utożsamiać ze zbiorem wszystkich nie malejących funkcji càdlàg R → [ 0 , 1 ], gdzie zamknięcie ich zakresu obejmuje zarówno 0, jak i 1 : są to skumulowane funkcje rozkładowe lub po prostu funkcje rozkładowe. Zatem X = R iCYRRnnn=1R→[0,1]01X=R .Y=[0,1]
Rodziny rozkładów jest dowolnym podzbiorem . CY Inną nazwą rodziny jest model statystyczny. Składa się ze wszystkich rozkładów, które, jak przypuszczamy, rządzą naszymi obserwacjami, ale nie wiemy, który rozkład jest właściwy.
- Rodzina może być pusta.
- sama jest rodziną.CY
- Rodzina może składać się z jednej dystrybucji lub tylko z ich skończonej liczby.
Te abstrakcyjne cechy zestawu teoretycznego są stosunkowo mało interesujące lub użyteczne. Ta koncepcja staje się użyteczna dopiero wtedy, gdy weźmiemy pod uwagę dodatkową (istotną) strukturę matematyczną na Ale jakie właściwości C Y mają znaczenie statystyczne? Niektóre, które często się pojawiają to:CYCY
jestzestawem wypukłym: biorąc pod uwagę dowolne dwa rozkłady F , G ∈ C Y , możemy utworzyćrozkład mieszaniny(1-t) F +t G ∈Ydla wszystkicht∈[0,1]. Jest to rodzaj „homotopii” zFdoG.CYF,G∈CY (1−t)F+tG∈Yt∈[0,1]FG
Duże części obsługują różne pseudometryki, takie jak rozbieżność Kullbacka-Leiblera lub blisko związana metryka informacji Fisher.CY
ma strukturę dodatków: odpowiadająca dowolnym dwóm rozkładuFiGjest ich suma M ⋆ G .CYFGF⋆G
obsługuje wiele przydatnych, naturalnych funkcji, często nazywanych „właściwościami”. Obejmują one wszelkie ustalone kwantyle (takie jak mediana), a takżekumulanty.CY
jest podzbioremprzestrzeni funkcji. Jako taki, dziedziczy wiele przydatnych wskaźników, takich jaksup norma(norma L ∞ ) podana przez | | F-G | | ∞ = sup x ∈ R | F(x)-G(x) | .CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
Naturalne działania grupa o wywołania działania na C Y . Najczęstsze działania to tłumaczenia T μ : x → x + μ i skalowania S σ : x → x σ dla σ > 0 . Wpływ, jaki mają one na rozkład, polega na wysłaniu F do rozkładu podanego przez F μ , σ ( x ) = F ( ( x - μ )RCY Tμ:x→x+μ Sσ:x→xσσ>0F . Prowadzą one do koncepcji rodzin o skali lokalizacji i ich uogólnień. (Nie dostarczam referencji, ponieważ szeroko zakrojone wyszukiwania w sieci ujawniają wiele różnych definicji: tutaj przynajmniej może być trochę kontrowersji.)Fμ,σ(x)=F((x−μ)/σ)
Istotne właściwości zależą od problemu statystycznego i od tego, jak zamierzasz analizować dane. Zajęcie się wszystkimi wariantami sugerowanymi przez powyższe cechy zajęłoby zbyt dużo miejsca dla tego medium. Skupmy się na jednej wspólnej ważnej aplikacji.
Weźmy na przykład maksymalne prawdopodobieństwo. W większości aplikacji będziesz chciał móc korzystać z rachunku różniczkowego, aby uzyskać oszacowanie. Aby to zadziałało, musisz być w stanie „brać pochodne” w rodzinie.
( Pomijając kwestię techniczną: zwykłym sposobem osiągnięcia tego jest wybranie domeny dla d ≥ 0 i określenie ciągłej, lokalnie odwracalnej funkcji p od Θ do C Y. (Oznacza to, że dla każdego θ ∈ Θ tam istnieje kula B ( θ , ϵ ) , gdzie ϵ > 0, dla których p ∣ B ( θ , ϵ ) :Θ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0 jest jeden do jednego. Innymi słowy, jeśli zmienimy θ o wystarczająco małą ilość, zawsze otrzymamy inny rozkład.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
W związku z tym w większości aplikacji ML wymagamy, aby było ciągłe (i, miejmy nadzieję, prawie wszędzie różnicowalne) w komponencie Θ . (Bez ciągłości maksymalizacja prawdopodobieństwa zwykle staje się trudnym problemem.) Prowadzi to do następującej definicji parametrycznej rodziny zorientowanej na prawdopodobieństwo :pΘ
Rodzina parametryczna rozkładów (jednowymiarowych) jest lokalnie odwracalną mapą gdzie Θ ⊂ R n , dla której (a) każde F θ jest funkcją rozkładu i (b) dla każdego x ∈ R , funkcja L x : θ → [ 0 , 1 ] podana przez L x ( θ ) = F ( x , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) jest ciągły i prawie wszędzie można go odróżnić.
Należy zauważyć, że rodzina parametryczna to więcej niż tylko zbiór F θ : obejmuje również określony sposób, w jaki wartości parametrów θ odpowiadają rozkładom.FFθθ
Skończymy na kilku przykładowych przykładach.
Niech będzie zbiorem wszystkich rozkładów normalnych. Jak podano, nie jest to rodzina parametryczna: to tylko rodzina. Aby być parametrycznym, musimy wybrać parametryzację. Jednym ze sposobów jest wybór Θ = { ( μ , σ ) ∈ R 2 ∣ σ > 0 }
i odwzorowanie ( μ , σ ) na rozkład normalny ze średnią μ
i wariancją σ 2 .CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
Zbiór rozkładów Poissona (λ) jest rodziną parametryczną o .λ∈Θ=(0,∞)⊂R1
Zestaw rozkładów Uniform (który jest wyraźnie widoczny w wielu ćwiczeniach podręcznikowych) jest rodziną parametryczną z
θ ∈ R 1 . W tym przypadku F θ ( x ) = max ( 0 , min ( 1 , x - θ ) ) jest różnicowalne w θ, z wyjątkiem
θ ∈ { x , x - 1 } .(θ,θ+1)θ∈R1Fθ(x)=max(0,min(1,x−θ))θθ∈{x,x−1}
Niech i G będą dowolnymi dwoma rozkładami. Zatem F ( x , θ ) = ( 1 - θ ) F ( x ) + θ G ( x ) jest rodziną parametryczną dla θ ∈ [ 0 , 1 ] . (Dowód: obraz F jest zbiorem rozkładów i jego pochodną cząstkową w θ równa się - F ( x ) + G (FGF(x,θ)=(1−θ)F(x)+θG(x)θ∈[0,1]Fθ który jest zdefiniowany wszędzie.)−F(x)+G(x)
Rodzina Pearson jest czterowymiarowa rodzina, , który obejmuje (między innymi) normalnego rozkładu, rozkład beta i rozkładów Inverse gamma. To ilustruje fakt, że dowolna dana dystrybucja może należeć do wielu różnych rodzin dystrybucji . Jest to całkowicie analogiczne do obserwowania, że dowolny punkt w (wystarczająco dużej) przestrzeni może należeć do wielu przecinających się tam ścieżek. To, wraz z poprzednią konstrukcją, pokazuje nam, że brak dystrybucji jednoznacznie określa rodzinę, do której należy.Θ⊂R4
Rodzina wszystkich absolutnie ciągłych rozkładów wariancji skończonych nie jest parametryczna. Dowód wymaga głębokiej twierdzenie topologii: jeśli nadają C Y z dowolnej topologii (czy statystycznie przydatne lub nie) i p : Θ → C Y jest ciągła i lokalnie ma ciągłą odwrotność, a następnie lokalnie C Y muszą mieć ten sam wymiar jak że z Θ . Jednak we wszystkich statystycznie znaczących topologiach C Y ma nieskończony wymiar.CYCYp:Θ→CYCYΘCY