„Głębokie twierdzenie Noether”: budowanie w ograniczeniach symetrii

Jeśli mam problem z uczeniem się, który powinien mieć nieodłączną symetrię, czy istnieje sposób na poddanie mojego problemu uczenia się ograniczeniu symetrii w celu usprawnienia uczenia się?

Na przykład, jeśli wykonuję rozpoznawanie obrazu, może potrzebuję symetrii obrotowej 2D. Oznacza to, że obrócona wersja obrazu powinna uzyskać taki sam wynik jak oryginał.

Lub jeśli uczę się grać w kółko i krzyżyk, wówczas obracanie o 90 stopni powinno dać tę samą grę.

Czy przeprowadzono na ten temat jakieś badania?

machine-learning

— aidan.plenert.macdonald
źródło

Tak, trochę; np Grupa Equivariant splotowy Networks ( kod ), harmoniczne Sieci: Głębokie tłumaczenie i Obrót Equivariance , Głębokie Obrót Equivariant Network , eksploatujących cykliczna Symetria w splotowego sieci neuronowych itp Po prostu nie widzę go dużo w naturze jeszcze.

— Emre

@ Emre Thanks! Czy znasz jakieś prace poza CNN?

— aidan.plenert.macdonald

Nie, mam tylko powierzchowną wiedzę na temat tej niszy. Niezależnie od tego CNN wydają się naturalnym środowiskiem ...

— Emre

Powinienem także wspomnieć o rozprawie doktorskiej Risi Kondor, Grupowe metody teoretyczne w uczeniu maszynowym (pdf)

— Emre

Z powyższego komentarza Emre, sekcja 4.4 grupowych metod teoretycznych w uczeniu maszynowym autorstwa Risi Kondor zawiera szczegółowe informacje i dowody na temat tworzenia metod jądra, które z natury mają symetrię. Podsumuję to w miejmy nadzieję intuicyjny sposób (jestem fizykiem, a nie matematykiem!).

Większość algorytmów ML ma mnożenie macierzy, takie jak,

\begin{aligned} s_{i} & = \sum_{j} W_{i j} x_{j} \\ = \sum_{j} W_{i j} ({\vec{e}}_{j} \cdot \vec{x}) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~x_j \\ &= \sum_j W_{ij}~(\vec{e}_j \cdot \vec{x}) \end{align}$ z

\vec{x}

$\vec{x}$ będąc wkładem i

W_{i j}

$W_{ij}$ jako ciężary, które chcemy trenować.

Metoda jądra

Wejdź do dziedziny metod jądra i pozwól algorytmowi przetwarzać dane wejściowe za pośrednictwem,

\begin{aligned} s_{i} & = \sum_{j} W_{i j} k (e_{j}, x) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~k(e_j,~x) \end{align}$ gdzie teraz uogólniamy

x, e_{j} \in X

$x, e_j \in \mathcal{X}$ .

Rozważ grupę $G$ to działa na $\mathcal{X}$ przez $x \rightarrow T_g(x)$ dla $g \in G$ . Prostym sposobem na uczynienie naszego algorytmu niezmiennym w tej grupie jest utworzenie jądra,

\begin{aligned} k^{G} (x, y) & = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g} (y)) \end{aligned}

$\begin{align} k^G(x, y) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_g(y)) \end{align}$ z

k (x, y) = k (T_{g} (x), T_{g} (y))

$k(x, y) = k(T_g(x), T_g(y))$ .

Więc,

\begin{aligned} k^{G} (x, T_{h} (y)) & = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g h} (y)) \\ = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g} (y)) \\ = \frac{1}{| G |} \sum_{g \in G} k (T_{g} (x), y) \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{gh}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{g}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(T_{g}(x), y) \end{align}$

Dla $k(x, y) = x \cdot y$ który działa dla wszystkich reprezentacji jednolitych,

\begin{aligned} k^{G} (x, T_{h} (y)) & = [\frac{1}{| G |} \sum_{g \in G} T_{g} (x)] \cdot y \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \left[ \frac{1}{|G|} \sum_{g \in G} T_{g}(x) \right] \cdot y \end{align}$

Który oferuje macierz transformacji, która może symetrycznie wprowadzać dane do algorytmu.

SO (2) Przykład

Właściwie tylko grupa, na którą mapuje się $\frac{\pi}{2}$ rotacje dla uproszczenia.

Uruchommy regresję liniową danych $(\vec{x}_i, y_i) \in \mathbb{R}^2 \times \mathbb{R}$ gdzie oczekujemy symetrii obrotowej.

Nasz problem optymalizacji staje się

\begin{aligned} min_{W_{j}} & \sum_{i} \frac{1}{2} (y_{i} - {\tilde{y}}_{i})^{2} \\ {\tilde{y}}_{i} & = \sum_{j} W_{j} k_{G} (e_{j}, x_{i}) + b_{i} \end{aligned}

$\begin{align} \min_{W_{j}} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= \sum_j W_{j} k_G(e_j, x_i) + b_i \end{align}$

Jądro spełnia . Możesz także użyć i różnych jąder. $k(x, y) = \| x - y \|^2$ $k(x, y) = k(T_g(x), T_g(y))$ $k(x, y) = x \cdot y$

Tak więc

\begin{aligned} k_{G} (e_{j}, x_{i}) & = \frac{1}{4} \sum_{n = 1}^{4} ‖ R (n π / 2) {\vec{e}}_{j} - {\vec{x}}_{i} ‖^{2} \\ = \frac{1}{4} \sum_{n = 1}^{4} (\cos (n π / 2) - {\vec{x}}_{i 1})^{2} + (\sin (n π / 2) - {\vec{x}}_{i 2})^{2} \\ = \frac{1}{4} [2 {\vec{x}}_{i 1}^{2} + 2 {\vec{x}}_{i 2}^{2} + (1 - {\vec{x}}_{i 1})^{2} + (1 - {\vec{x}}_{i 2})^{2} + (1 + {\vec{x}}_{i 1})^{2} + (1 + {\vec{x}}_{i 2})^{2}] \\ = {\vec{x}}_{i 1}^{2} + {\vec{x}}_{i 2}^{2} + 1 \end{aligned}

$\begin{align} k_G(e_j, x_i) &= \frac{1}{4} \sum_{n=1}^4 \| R(n\pi/2)~\vec{e}_j - \vec{x}_i \|^2 \\ &= \frac{1}{4} \sum_{n=1}^4 ( \cos(n\pi/2) - \vec{x}_{i1} )^2 + ( \sin(n\pi/2) - \vec{x}_{i2} )^2 \\ &= \frac{1}{4} \left[ 2 \vec{x}_{i1}^2 + 2 \vec{x}_{i2}^2 + (1 - \vec{x}_{i1} )^2 + (1 - \vec{x}_{i2} )^2 + (1 + \vec{x}_{i1} )^2 + (1 + \vec{x}_{i2} )^2 \right] \\ &= \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \end{align}$

Zauważ, że nie musimy sumować przez ponieważ jest to to samo dla obu. Tak więc naszym problemem staje się: $j$

\begin{aligned} min_{W} & \sum_{i} \frac{1}{2} (y_{i} - {\tilde{y}}_{i})^{2} \\ {\tilde{y}}_{i} & = W [{\vec{x}}_{i 1}^{2} + {\vec{x}}_{i 2}^{2} + 1] + b_{i} \end{aligned}

$\begin{align} \min_{W} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= W \left[ \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \right] + b_i \end{align}$

Co daje oczekiwaną sferyczną symetrię!

Kółko i krzyżyk

Przykładowy kod można zobaczyć tutaj . Pokazuje, jak możemy stworzyć macierz, która koduje symetrię i z niej korzystać. Zauważ, że to naprawdę źle, kiedy faktycznie go uruchamiam! Praca z innymi jądrami w tej chwili.

— aidan.plenert.macdonald
źródło

Dobra robota, Aidan! Jeśli masz czas, możesz napisać bardziej szczegółowy post na blogu. Społeczność będzie najbardziej zainteresowana.

— Emre,

Nie jestem pewien, do jakiej społeczności się odnosisz, ale zacząłem pisać więcej. Chciałem znaleźć sposób na oszacowanie optymalnego jądra, biorąc pod uwagę zestaw danych. Zoptymalizowałem więc entropię w przestrzeni jądra, aby intuicyjnie uzyskać nowy zestaw funkcji, które są symetrycznie ograniczone, a także maksymalnie entropiczne (tj. Informacyjne). Teraz, czy to właściwe podejście. Nie mogę powiedzieć Tylko ostrzeżenie, matematyka jest teraz trochę hackingiem i trochę przypomina mecha statystyki. overleaf.com/read/kdfzdbyhpbbq

— aidan.plenert.macdonald

Czy istnieje jakieś sensowne podejście, gdy grupa symetrii nie jest znana?

— leitasat

@leitasat Skąd wiesz, że jest symetryczny, jeśli nie znasz grupy?

— aidan.plenert.macdonald

@ aidan.plenert.macdonald z danych. Załóżmy, że mamy 1000 zestawów po 100 zdjęć każdy, aw każdym zestawie znajdują się zdjęcia jednego obiektu z różnych punktów widzenia. Czy dowolny algorytm może „nauczyć się idei” symetrii SO (3) i wykorzystać ją na wcześniej niewidzialnych obiektach?

— leitasat

Okazuje się, że to tylko studium teorii niezmienników zastosowanej do uczenia maszynowego

— aidan.plenert.macdonald
źródło