Maksymalna średnia rozbieżność (rozkład odległości)

Mam dwa zestawy danych (dane źródłowe i docelowe), które mają różny rozkład. Korzystam z MMD - czyli nieparametrycznego rozkładu odległości - aby obliczyć rozkład krańcowy między danymi źródłowym i docelowym.

dane źródłowe, Xs

dane docelowe, Xt

adaptacja Matryca A

* Dane prognozowane, Zs = A '* Xs i Zt = A' Xt

* MMD => Odległość (P (Xs), P (Xt)) = | średnia (A'Xs) - średnia (A ' Xt) |

Oznacza to: odległość rozkładu między danymi źródłowymi i docelowymi w pierwotnej przestrzeni jest równa odległości między środkami rzutowanych danych źródłowych i docelowych w przestrzeni osadzonej.

Mam pytanie dotyczące koncepcji MMD.

We wzorze MMD: Dlaczego przy obliczaniu odległości w utajonej przestrzeni możemy zmierzyć odległość rozkładu w pierwotnej przestrzeni?

Dzięki

— Mahsa
źródło

Nie zadałeś jeszcze pytania: powiedziałeś nam tylko, że się zdezorientowałeś!

— whuber

Może to pomóc w nieco szerszym omówieniu MMD. $\DeclareMathOperator{\E}{\mathbb E}\newcommand{\R}{\mathbb R}\newcommand{\X}{\mathcal X}\newcommand{\h}{\mathcal H}\DeclareMathOperator{\MMD}{MMD}$

Ogólnie rzecz biorąc, MMD jest zdefiniowane przez ideę reprezentowania odległości między rozkładami jako odległości między średnimi osadzeniami cech. Oznacza to, że mamy rozkładów i na zbiorze . MMD jest zdefiniowane przez mapę funkcji , gdzie to tak zwana przestrzeń Hilberta w jądrze odtwarzającym. Ogólnie rzecz biorąc, MMD to $P$ $Q$ $\X$ $\varphi : \X \to \h$ $\mathcal H$

MMD (P, Q) = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} .

$\MMD(P, Q) = \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h .$

Jako przykład możemy podać i . W takim przypadku: więc ten MMD to tylko odległość między średnimi dwóch rozkładów. Dopasowywanie takich rozkładów będzie odpowiadać ich środkom, choć mogą różnić się wariancją lub innymi sposobami. $\X = \h = \R^d$ $\varphi(x) = x$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [X] - E_{Y \sim Q} [Y] ‖_{R^{d}} \\ = ‖ μ_{P} - μ_{Q} ‖_{R^{d}}, \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ X ] - \E_{Y \sim Q}[ Y ] \rVert_{\R^d} \\&= \lVert \mu_P - \mu_Q \rVert_{\R^d} ,\end{align}$

Twój przypadek jest nieco inny: mamy i , z , gdzie jest macierzą . Mamy więc Ta MMD jest różnicą między dwoma różnymi rzutami średniej. Jeśli w innym przypadku lub mapowanie nie jest odwracalne, $\mathcal X = \mathbb R^d$ $\mathcal H = \mathbb R^p$ $\varphi(x) = A' x$ $A$ $d \times p$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [A^{'} X] - E_{Y \sim Q} [A^{'} Y] ‖_{R^{p}} \\ = ‖ A^{'} E_{X \sim P} [X] - A^{'} E_{Y \sim Q} [Y] ‖_{R^{p}} \\ = ‖ A^{'} (μ_{P} - μ_{Q}) ‖_{R^{p}} . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ A' X ] - \E_{Y \sim Q}[ A' Y ] \rVert_{\R^p} \\&= \lVert A' \E_{X \sim P}[ X ] - A' \E_{Y \sim Q}[ Y ] \rVert_{\R^p} \\&= \lVert A'( \mu_P - \mu_Q ) \rVert_{\R^p} .\end{align}$

p < d

$p < d$

A^{'}

$A'$ niż poprzedni: nie rozróżnia niektórych dystrybucji, które robi poprzedni.

Możesz także budować większe odległości. Na przykład, jeśli i użyjesz , wtedy MMD staje się i potrafi rozróżniać nie tylko różne środki, ale także różne wariancje. $\X = \R$ $\varphi(x) = (x, x^2)$ $\sqrt{(\E X - \E Y)^2 + (\E X^2 - \E Y^2)^2}$

I możesz stać się znacznie silniejszy: jeśli na ogólne jądro odtwarzające przestrzeń Hilberta, możesz zastosować sztuczkę jądra, aby obliczyć MMD, i okazuje się, że wiele jąder, w tym jądro Gaussa, prowadzi do MMD równa zero, jeśli tylko rozkłady są identyczne. $\varphi$

W szczególności, pozwalając , otrzymujesz które można bezpośrednio oszacować za pomocą próbek. $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_\h$

\begin{aligned} {MMD}^{2} (P, Q) & = ‖ E_{X \sim P} φ (X) - E_{Y \sim Q} φ (Y) ‖_{H}^{2} \\ = ⟨ E_{X \sim P} φ (X), E_{X^{'} \sim P} φ (X^{'}) ⟩_{H} + ⟨ E_{Y \sim Q} φ (Y), E_{Y^{'} \sim Q} φ (Y^{'}) ⟩_{H} - 2 ⟨ E_{X \sim P} φ (X), E_{Y \sim Q} φ (Y) ⟩_{H} \\ = E_{X, X^{'} \sim P} k (X, X^{'}) + E_{Y, Y^{'} \sim Q} k (Y, Y^{'}) - 2 E_{X \sim P, Y \sim Q} k (X, Y) \end{aligned}

$\begin{align} \MMD^2(P, Q) &= \lVert \E_{X \sim P} \varphi(X) - \E_{Y \sim Q} \varphi(Y) \rVert_\h^2 \\&= \langle \E_{X \sim P} \varphi(X), \E_{X' \sim P} \varphi(X') \rangle_\h + \langle \E_{Y \sim Q} \varphi(Y), \E_{Y' \sim Q} \varphi(Y') \rangle_\h - 2 \langle \E_{X \sim P} \varphi(X), \E_{Y \sim Q} \varphi(Y) \rangle_\h \\&= \E_{X, X' \sim P} k(X, X') + \E_{Y, Y' \sim Q} k(Y, Y') - 2 \E_{X \sim P, Y \sim Q} k(X, Y) \end{align}$

Aktualizacja: oto, skąd pochodzi „maksimum” w nazwie.

Mapa funkcji zamienia się w przestrzeń Hilberta w jądrze odtwarzającym. Są to przestrzenie funkcji i spełniają kluczową właściwość (zwaną właściwością odtwarzania ): dla dowolnego . $\varphi: \X \to \h$ $\langle f, \varphi(x) \rangle_\h = f(x)$ $f \in \h$

W najprostszym przykładzie z , widzimy każdy jako funkcję odpowiadającą niektórym przez . Wtedy właściwość odtwarzania powinna mieć sens. $\X = \h = \R^d$ $\varphi(x) = x$ $f \in \h$ $w \in \R^d$ $f(x) = w' x$ $\langle f, \varphi(x) \rangle_\h = \langle w, x \rangle_{\R^d}$

W bardziej skomplikowanych ustawieniach, takich jak jądro Gaussa, jest znacznie bardziej skomplikowaną funkcją, ale właściwość odtwarzania nadal obowiązuje. $f$

Teraz możemy podać alternatywną charakterystykę MMD: Drugi wiersz jest ogólnym faktem na temat norm w przestrzeniach Hilberta:

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] ⟩_{H} - ⟨ f, E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [⟨ f, φ (X) ⟩_{H}] - E_{Y \sim Q} [⟨ f, φ (Y) ⟩_{H}] \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [f (X)] - E_{Y \sim Q} [f (Y)] . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rVert_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] \rangle_\h - \langle f, \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[\langle f, \varphi(X)\rangle_\h] - \E_{Y \sim Q}[\langle f, \varphi(Y) \rangle_\h] \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[f(X)] - \E_{Y \sim Q}[f(Y)] .\end{align}$

sup_{f : ‖ f ‖ \leq 1} ⟨ f, g ⟩_{H} = ‖ g ‖

$\sup_{f : \lVert f \rVert \le 1} \langle f, g \rangle_\h = \lVert g \rVert$ osiąga się przez . Czwarty zależy od stanu technicznego znanego jako całkowalność Bochnera, ale jest prawdziwy np. W przypadku ograniczonych jąder lub dystrybucji z ograniczoną obsługą. Następnie na koniec używamy właściwości odtwarzania.

f = g / ‖ g ‖

$f = g / \lVert g \rVert$

Ten ostatni wiersz jest nazywany „maksymalną średnią rozbieżnością” - jest to maksymalna, ponad testowa funkcja w jednostce kuli , średniej różnicy między dwoma rozkładami. $f$ $\h$

— Dougal
źródło

Dziękuję za wyjaśnienie, staje się dla mnie bardziej jasne; Wciąż nie dostałem tej koncepcji. Na początku powiedziałeś: „MMD jest zdefiniowane przez ideę reprezentowania odległości między rozkładami jako odległości między średnimi osadzeniami cech”. Dlaczego ten pomysł się spełnia?

— Mahsa

„MMD jest zdefiniowane przez ideę reprezentowania odległości między rozkładami jako odległości między średnimi osadzeniami cech.” Dlaczego ten pomysł się sprawdza? Czy jest on związany z przestrzenią RKHS?

— Mahsa

To tylko definicja: możesz porównać rozkłady, porównując ich średnie. Lub możesz porównać rozkłady, porównując niektóre transformacje ich średnich; lub przez porównanie ich środków i wariancji; lub poprzez porównanie średniej z dowolnej innej mapy obiektów, w tym mapy RKHS.

— Dougal

Dzięki za twoją odpowiedź; Przeczytam więcej o mapie funkcji RKHS; Zastanawiałem się, dlaczego odległość MMD jest zdefiniowana na mapie obiektów RKHS? Mam na myśli, jaka jest korzyść RKHS w definicji odległości MMD?

— Mahsa

Wyjaśnienie tutaj koncentruje się na „średniej rozbieżności” w przeciwieństwie do „maksymalnej średniej rozbieżności”. Czy ktoś mógłby rozwinąć część „Maksymalizacja”?

— Jiang Xiang

Oto jak interpretowałem MMD. Dwa rozkłady są podobne, jeśli ich momenty są podobne. Stosując jądro, mogę przekształcić zmienną tak, aby wszystkie momenty (pierwszy, drugi, trzeci itd.) Były obliczane. W utajonej przestrzeni mogę obliczyć różnicę między momentami i uśrednić ją. Daje to miarę podobieństwa / odmienności między zestawami danych.

— rsambasivan
źródło