Graficzna intuicja statystyk na rozmaitości

W tym poście możesz przeczytać oświadczenie:

Modele są zwykle reprezentowane przez punkty na kolektorze o skończonych wymiarach. $\theta$

W geometrii różnicowej i statystyce Michaela K Murraya i Johna W. Rice'a pojęcia te są wyjaśnione czytelną prozą, nawet ignorując wyrażenia matematyczne. Niestety jest bardzo mało ilustracji. To samo dotyczy tego postu na MathOverflow.

Chcę poprosić o pomoc w prezentacji wizualnej, która posłuży jako mapa lub motywacja do bardziej formalnego zrozumienia tematu.

Jakie są punkty na kolektorze? Ten cytat z tego znaleziska online najwyraźniej wskazuje, że mogą to być albo punkty danych, albo parametry dystrybucji:

Statystyki dotyczące rozmaitości i geometrii informacyjnej to dwa różne sposoby, w których geometria różniczkowa spotyka się ze statystykami. Podczas gdy w statystykach dotyczących rozmaitości są to dane, które leżą na rozmaitości, w geometrii informacji dane są w , ale sparametryzowana rodzina interesujących funkcji gęstości prawdopodobieństwa jest traktowana jako różnorodność. Takie rozmaitości są znane jako rozmaitości statystyczne. $R^n$

Narysowałem ten schemat zainspirowany wyjaśnieniem przestrzeni stycznej tutaj :

[ Edytuj, aby odzwierciedlić poniższy komentarz na temat : $C^\infty$ ] Na kolektorze przestrzeń styczna jest zbiorem wszystkich możliwych pochodnych („prędkości”) w punkcie związanym z każdą możliwą krzywą na kolektorze biegnącym przezMożna to postrzegać jako zestaw map z każdej krzywej przechodzącej przez tj. zdefiniowany jako skład , z oznaczającym krzywą (funkcja od linii rzeczywistej do powierzchni kolektora $(\mathcal M)$ $p\in \mathcal M$ $(\psi: \mathbb R \to \mathcal M)$ $p.$ $p,$ $C^\infty (t)\to \mathbb R,$ $\left(f \circ \psi \right )'(t)$ $\psi$ $\mathcal M$ ) biegnącej przez punkt i przedstawione na czerwono na powyższym schemacie; i reprezentujące funkcję testową. W „i- ” białe linie konturowe map do tego samego punktu na prostej rzeczywistej, a otaczają punkt . $p,$ $f,$ $f$ $p$

Równoważność (lub jedna z równoważności zastosowana do statystyki) jest tutaj omawiana i odnosi się do następującego cytatu :

Jeżeli przestrzeń parametr dla rodziny wykładniczej zawiera wymiarową zbiór otwarty, to nazywa się pełny ranking. $s$

Wykładnicza rodzina, która nie jest pełna rangi, jest na ogół nazywana zakrzywioną rodziną wykładniczą, ponieważ zazwyczaj przestrzenią parametrów jest krzywa w wymiaru mniejszego niż $\mathcal R^s$ $s.$

Wydaje się, że interpretacja wykresu wygląda następująco: parametry dystrybucyjne (w tym przypadku rodzin rozkładów wykładniczych) leżą na różnorodności. Punkty danych w będą mapowane do linii na kolektorze poprzez funkcję w przypadku problemu nieliniowej optymalizacji z niedoborem rang. Spowodowałoby to równoległe obliczenie prędkości w fizyce: szukanie pochodnej funkcji wzdłuż gradientu linii „izo-f” (pochodna kierunkowa w kolorze pomarańczowym):Funkcja odgrywa rolę optymalizującą wybór parametru dystrybucyjnego jako krzywej $\mathbb R$ $\psi: \mathbb R \to \mathcal M$ $f$ $\left(f \circ \psi \right)'(t).$ $f: \mathbb M \to \mathbb R$ $\psi$ porusza się wzdłuż linii konturu na kolektorze. $f$

INFORMACJE DODATKOWE:

Warto zauważyć, że uważam, że te pojęcia nie są bezpośrednio związane z nieliniowym zmniejszaniem wymiarów w ML. Wyglądają bardziej jak geometria informacji . Oto cytat:

Co ważne, statystyki dotyczące różnorodności bardzo różnią się od uczenia się różnorodności. Ta ostatnia jest gałęzią uczenia maszynowego, której celem jest nauczenie się ukrytego rozmaitości na podstawie danych ocenianych przez . Zazwyczaj wymiar poszukiwanego ukrytego kolektora jest mniejszy niż . Ukryty kolektor może być liniowy lub nieliniowy, w zależności od konkretnej zastosowanej metody. $R^n$ $n$

Następujące informacje ze statystyki kolektorów z aplikacjami do modelowania deformacji kształtów autorstwa Orena Freifelda :

Podczas gdy jest zwykle nieliniowy, można skojarzyć powierzchni styczności, oznaczoną , dla każdego punktu . jest przestrzeń wektorową, którego wymiary są takie same jak w przypadku . Pochodzenie jest na . Jeśli jest osadzone w jakiejś przestrzeni euklidesowej, możemy myśleć o jako afinicznej podprzestrzeni, tak że: 1) dotyka w ; 2) przynajmniej lokalnie leży całkowicie po jednej jego stronie. Elementy TpM nazywane są wektorami stycznymi. $M$ $TpM$ $p \in M$ $TpM$ $M$ $TpM$ $p$ $M$ $TpM$ $M$ $p$ $M$

[...] W przypadku rozmaitości modele statystyczne są często wyrażane w przestrzeniach stycznych.

[...]

[Rozważamy dwa] zestawy danych składają się z punktów w : $M$

$D_L = \{p_1, \cdots , p_{NL}\} \subset M$ ;

$D_S = \{q_1, \cdots , q_{NS}\} \subset M$

Niech i reprezentują dwa, ewentualnie nieznane, punkty . Zakłada się, że dwa zestawy danych spełniają następujące zasady statystyczne: $µ_L$ $µ_S$ $M$

$\{\log_{\mu L} (p_1), \cdots , \log_{\mu L}(p_{NL})\} \subset T_{\mu L}M, \quad \log_{\mu L}(p_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_L)$ $\{\log_{\mu S} (q_1), \cdots , \log_{\mu S}(q_{NS})\} \subset T_{\mu S}M, \quad \log_{\mu S}(q_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_S)$

[...]

Innymi słowy, gdy jest wyrażany (jako wektory styczne) w przestrzeni stycznej (do ) w , można go postrzegać jako zestaw próbek iid z Gaussianina o zerowej średniej z kowariancją . Podobnie, gdy jest wyrażany w przestrzeni stycznej w , można go postrzegać jako zestaw próbek iid z zerowej średniej Gaussa z kowariancją . Uogólnia to przypadek euklidesowy. $D_L$ $M$ $\mu_L$ $\Sigma_L$ $D_S$ $\mu_S$ $\Sigma_S$

Na tej samej referencji znajduję najbliższy (i praktycznie jedyny) przykład online tej koncepcji graficznej, o którą pytam:

Czy to wskazywałoby, że dane leżą na powierzchni rozmaitości wyrażonej jako wektory styczne, a parametry byłyby odwzorowane na płaszczyźnie kartezjańskiej?

— Antoni Parellada
źródło

Co próbujesz tutaj zrobić? Rysować rozmaitości? Większość z nich jest zbyt nudna, aby rysować. Na przykład wypróbuj rozkład Gaussa.

— Aksakal,

Normalnie myślałbym o przestrzeniach parametrów jako przestrzeniach wektorowych, np. . Gdybym miał pomyśleć o parametrycznych „rozmaitościach”, pierwszą rzeczą, jaka przychodzi mi na myśl, byłyby „systemy ograniczeń”, np. . W przeciwnym razie, dlaczego przestrzeń nie jest „pełna”? (Co definiuje podzbiór, który jest „kolektorem”?)

θ \in R^{n}

$\theta\in\mathbb{R}^n$

f (θ) = 0

$f(\theta)=0$

— GeoMatt22,

Mamy nadzieję, że @whuber przyjdzie i opracuje komentarze na czacie.

— gung - Przywróć Monikę

Krótka odpowiedź na edytowane pytanie brzmi „nie”. Przestrzeń styczna opisuje prędkości wszystkich gładkich ścieżek w kolektorze. Jego podstawową rolą w statystyce jest maksymalizacja prawdopodobieństw, gdzie różnorodność opisuje skończoną sparametryzowaną rodzinę. W „uczeniu się rozmaitości” rozmaitość jest używana jako lokalne przybliżenie danych - jest to zakrzywiona wersja „przestrzeni kolumn” w regresji liniowej. Tam przestrzeń styczna jest osadzona w otaczającej przestrzeni euklidesowej. Lokalnie opisuje „kierunki” danych, a jego normalny pakiet podaje kierunki „błędów”.

— whuber

Tak: przestrzeń cotangensowa w może być zdefiniowana jako wyprowadzenie zarodków funkcji wokół . Przestrzeń styczna w (dlatego!) Jest po prostu podwójna. i nabyć Topologia - czyli przyznać pojęcie dwie przestrzenie styczne i jest „blisko” - za pomocą wykresów na współrzędnych . Zmniejsza to definicję (i problem wizualizacji) do definicji definiowania przestrzeni stycznej . Jest to zbiór wszystkich wektorów pochodzących od . Spivak, w Calculus on Manifolds

T_{p}^{*} M

$T_p^{*}M$

p

$p$

p

$p$

p

$p$

T^{*} M

$T^{*}M$

T M

$TM$

T_{p} M

$T_pM$

T_{q} M

$T_qM$

M

$M$

T_{x} R^{n}

$T_x\mathbb{R}^n$

x

$x$ , zapewnia jasną, elementarną definicję tego rodzaju.

— whuber

$(\Theta)$ $\mathcal N(\mu,\sigma^2),$ $\mathbb R^2$ $x$ $y$

$\mathrm{pdf}$

W odległości informacyjnej Fishera: odczyt geometryczny , Costa SI, Santos SA i Strapasson JE wykorzystują podobieństwo między macierzą informacji Fishera rozkładów Gaussa a metryką w modelu dyskowym Beltrami-Pointcaré, aby uzyskać zamkniętą formułę.

$x^2 + y^2 - x^2 = -1$ $\mathrm {pdf's,}$ $P$ $Q,$ $\mathrm{pdf's}$ $g_{\mu\nu}\;(\Theta)\;\mathbf e^\mu\otimes \mathbf e^\nu$

D (P (x; θ_{1}), Q (x; θ_{2})) = min_{θ (t) | θ (0) = θ_{1}, θ (1) = θ_{2}} \int_{0}^{1} \sqrt{{(\frac{d θ}{d t})}^{⊤} I (θ) \frac{d θ}{d t} d t}

$D\,\left ( P(x;\theta_1)\,,\,Q(x;\theta_2) \right)=\min_{\theta(t)\,|\,\theta(0)=\theta_1\;,\;\theta(1)=\theta_2}\;\int_0^1 \; \sqrt{\left(\frac{\mathrm d\theta}{\mathrm dt} \right)^\top\;I(\theta)\frac{\mathrm d \theta}{\mathrm dt}dt}$

I (θ) = \frac{1}{σ^{2}} [\begin{matrix} 1 & 0 \\ 0 & 2 \end{matrix}]

$I(\theta) = \frac{1}{\sigma^2}\begin{bmatrix}1&0\\0&2 \end{bmatrix}$

Dywergencja kullbacka-leiblera jest ściśle związana, choć brakuje geometrii i powiązane metryki.

Warto zauważyć, że matrycę informacji Fishera można interpretować jako Hesję entropii Shannona :

g_{i j} (θ) = - E [\frac{\partial^{2} \log p (x; θ)}{\partial θ_{i} \partial θ_{j}}] = \frac{\partial^{2} H (p)}{\partial θ_{i} \partial θ_{j}}

$g_{ij}(\theta)=-E\left[ \frac{\partial^2\log p(x;\theta)}{\partial \theta_i \partial\theta_j} \right]=\frac{\partial^2 H(p)}{\partial \theta_i \partial \theta_j}$

H (p) = - \int p (x; θ) \log p (x; θ) d x .

$H(p) = -\int p(x;\theta)\,\log p(x;\theta) \mathrm dx.$

Ten przykład jest podobny w koncepcji do bardziej powszechnej stereograficznej mapy Ziemi .

Wielowymiarowe osadzanie ML lub wielorakie uczenie się nie jest tutaj omawiane.

— Antoni Parellada
źródło

Istnieje więcej niż jeden sposób powiązania prawdopodobieństwa z geometrią. Jestem pewien, że słyszałeś o rozkładach eliptycznych (np. Gaussowskich). Sam termin oznacza połączenie geometrii i jest oczywisty, gdy narysujesz jego macierz kowariancji. W przypadku kolektorów umieszcza każdą możliwą wartość parametru w układzie współrzędnych. Na przykład kolektor gaussowski miałby dwa wymiary: . Możesz mieć dowolną wartość ale tylko dodatnie wariancje . Stąd rozmaitość Gaussa stanowiłaby połowę całej przestrzeni . Nie takie interesujące $\mu,\sigma^2$ $\mu\in R$ $\sigma^2>0$ $R^2$

— Aksakal
źródło

Myślę, że myślałem, że „rozmaitość” ma być niższym wymiarem niż przestrzeń do osadzenia? Czyli półprzestrzeń by się nie liczyła?

— GeoMatt22,

Z Gaussianem nie jest to nawet różnorodne, prawda. Potrzebujesz ograniczeń, więc staje się to jakimś samolotem lub linią

— Aksakal,

Próbuję zrozumieć konsekwencje swojej odpowiedzi ... Czy masz na myśli „ jest odnośnik geometrii”? Właśnie znalazłem ten powiązany post na MathOverflow .

— Antoni Parellada,

Staje się bardziej interesujący dzięki odpowiednim metrykom ... takim jak Fisher-Rao, a następnie staje się hiperbolicznym polem Poincare pl.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model

— mic

Dla wszystkich: (1) rozmaitości opisujące rodziny parametryczne są wewnętrznymi rozmaitościami: nie muszą być osadzone w żadnej przestrzeni wektorowej. (2) Są one czymś więcej niż tylko różnorodnymi rozmaitościami: informacja Fishera nadaje im miernik Riemanniana - lokalny dystans - który umożliwia badanie ich geometrycznie. To powoduje, że „połowa całej przestrzeni” staje się zakrzywioną powierzchnią.

R^{2}

$\mathbb{R}^2$

— whuber