Jak udowodnić, że różnorodne założenie jest prawidłowe?

9

W uczeniu maszynowym często zakłada się, że zbiór danych leży na gładkim kolektorze o małych wymiarach (założenie rozmaitości), ale czy istnieje jakiś sposób, aby udowodnić, że przy spełnieniu określonych warunków, zbiór danych jest rzeczywiście (w przybliżeniu) generowany z niskiego wymiaru gładkiego kolektora?

Na przykład, biorąc pod uwagę sekwencję danych gdzie (powiedz sekwencję obrazów twarzy o różnych kątach) i odpowiednią sekwencję etykiet gdzie (powiedz kąty sekwencji twarzy). Załóżmy, że gdy i są bardzo blisko siebie, ich etykiety i są również bardzo blisko siebie, możemy sobie wyobrazić, że prawdopodobne jest, że $\{\mathbf{X}_1 \ldots \mathbf{X}_n\}$ $\mathbf X_i \in \mathbb{R}^d$ $\{ y_1 \ldots y_n\}$ $y_1 \preceq y_2 \ldots \preceq y_n$ $X_i$ $X_{i+1}$ $y_i$ $y_{i+1}$ $\{\mathbf{X}_1 \ldots \mathbf{X}_n\}$ leżeć na wielowymiarowym kolektorze. Czy to prawda? Jeśli tak, jak możemy to udowodnić? Lub jakie warunki musi spełniać sekwencja, aby można było udowodnić, że różnorodne założenie jest prawdziwe?

machine-learning dimensionality-reduction manifold-learning

— myśliciel
źródło

10

Szybko staje się jasne, patrząc na wiele relacji o „różnorodnym założeniu”, że wielu pisarzy jest szczególnie niechlujnych co do jego znaczenia. Bardziej ostrożni definiują to z subtelnym, ale niezwykle ważnym zastrzeżeniem : dane leżą na lub w pobliżu wielowymiarowego kolektora.

Nawet ci, którzy nie zawierają klauzuli „lub bliskiej”, wyraźnie przyjmują różnorodne założenie jako przybliżoną fikcję, dogodną do przeprowadzania analizy matematycznej, ponieważ ich aplikacje muszą uwzględniać odchylenia między danymi a szacowaną różnorodnością. Rzeczywiście, wielu autorów później wprowadza wyraźny mechanizm odchyleń, na przykład rozważając regresję względem gdzie jest ograniczony do leżenia na różnorodnym ale może obejmować przypadkowe odchylenia. Jest to równoważne z założeniem, że krotki leżą blisko siebie $y$ $\mathrm x$ $\mathrm x$ $M^k\subset \mathbb{R}^d$ $y$ $(\mathrm x_i, y_i)$ , ale niekoniecznie, zanurzonego wymiarową wielorakie formy $k$

(x, f (x)) \in M^{k} \times R \subset R^{d} \times R \approx R^{d + 1}

$(\mathrm x,f(x)) \in M^k \times \mathbb{R} \subset \mathbb{R}^d\times \mathbb{R}\approx \mathbb{R}^{d+1}$

dla niektórych funkcji wygładzania (regresji) . Ponieważ możemy postrzegać wszystkie zaburzone punkty , które są jedynie bliskie wykresowi ( rozmaitości wymiarowej), jako leżące o o -wymiarowego kolektora , pomaga wyjaśnić, dlaczego takie niechlujstwo o odróżnienie „na” z „w pobliżu” może być nieważna w teorii. $f:\mathbb{R}^d\to \mathbb{R}$ $(\mathrm x,y)=(\mathrm x,f(\mathrm x)+\varepsilon)$ $f$ $k$ $k+1$ $M^k\times \mathbb R$

Różnica między włączeniem a zbliżeniem jest niezwykle ważna dla aplikacji. „Blisko” pozwala, aby dane mogły różnić się od kolektora. Jako taki, jeśli zdecydujesz się oszacować ten rozmaitość, wówczas można określić ilościowo typowe odchylenie między danymi a różnorodnością. Jeden zamontowany kolektor będzie lepszy od drugiego, gdy typowa wielkość odchylenia jest mniejsza, ceteris paribus.

Postać

Rysunek pokazuje dwie wersje założenia rozmaitości dla danych (duże niebieskie kropki): czarny kolektor jest stosunkowo prosty (wymaga tylko czterech parametrów do opisania), ale zbliża się tylko do „danych”, podczas gdy czerwony kropkowany kolektor pasuje do danych idealnie, ale jest skomplikowane (potrzebne jest 17 parametrów).

Podobnie jak we wszystkich takich problemach, istnieje kompromis między złożonością opisu różnorodności a dobrością dopasowania (problem nadmiernego dopasowania). Jest zawsze zdarza się, że jednowymiarowa kolektor znajduje się dopasowanie ograniczoną ilość danych w doskonale (jak czerwony przerywaną kolektora na rysunku, tylko prowadzony gładką krzywą przez wszystkie punkty , w dowolnej kolejności: prawie na pewno nie będzie się przecinał, ale jeśli tak, zaburz krzywą w sąsiedztwie takiego skrzyżowania, aby go wyeliminować). Z drugiej strony, jeśli dozwolona jest tylko ograniczona klasa rozmaitości (takich jak tylko proste hiperplany euklidesowe), dobre dopasowanie może być niemożliwe, niezależnie od wymiarów, a typowe odchylenie między danymi a dopasowaniem może być duże. $\mathbb{R}^d$

Prowadzi to do prostego, praktycznego sposobu oceny różnorodnego założenia: jeśli model / predyktor / klasyfikator opracowany na podstawie różnorodnego założenia działa dobrze, to założenie było uzasadnione. Zatem odpowiednimi warunkami poszukiwanymi w pytaniu będzie to, że pewna istotna miara dobroci dopasowania będzie akceptowalnie mała. (Jaką miarę? Zależy to od problemu i jest równoznaczne z wyborem funkcji straty.)

Możliwe jest, że rozmaitości o różnych wymiarach (z różnymi rodzajami ograniczeń ich krzywizny) mogą pasować do danych - i przewidywać przetrzymywane dane - równie dobrze. Nic nie można „udowodnić” na temat „rozmaitości” leżącej u podstaw , w szczególności podczas pracy z dużymi, nieporządnymi, ludzkimi zbiorami danych. Zwykle możemy jedynie mieć nadzieję, że zamontowany kolektor jest dobrym modelem.

Jeśli nie wpadniesz na dobry model / predyktor / klasyfikator, to albo założenie rozmaitości jest nieprawidłowe, zakładasz rozmaitości o zbyt małym wymiarze lub nie wyglądałeś wystarczająco mocno lub wystarczająco dobrze.

— Whuber
źródło

1

+1 Bardzo miło. Pozwolę sobie dodać (bez sugerowania, że podzielasz mój pogląd), że to ponownie pokazuje, dlaczego pryncypialny, ale sceptyczny i często niepewny sposób myślenia, który był kultywowany w statystykach przez wiele lat, jest bardzo ważny dla często niejasnego, szybkiego, lśniącego-nowego- zabawkowy świat uczenia maszynowego i nauki danych.

— Momo

5

Dowolny skończony zestaw punktów może zmieścić się na dowolnej rozmaitości (potrzebne odniesienie do twierdzenia, nie pamiętam, co to jest twierdzenie, po prostu pamiętam ten fakt z uni).

Jeśli nie chcemy, aby wszystkie punkty były identyfikowane, wówczas najniższym możliwym wymiarem jest 1.

Weźmy jako prosty przykład, biorąc pod uwagę N 2d punktów, istnieje pewna wielomian rzędu N-1, w którym wszystkie N punktów leżą na tym wielomianu. Dlatego mamy kolektor 1d dla dowolnego zestawu danych 2d. Myślę, że logika dla dowolnych wymiarów jest podobna.

Więc to nie jest problem, prawdziwe założenia dotyczą struktury / prostoty rozmaitości, szczególnie gdy traktuje się połączone różnorodności Riemanniana jako przestrzenie metryczne. Przeczytałem artykuły na temat tego różnorodnego hokusa i odkryłem, że jeśli dokładnie przeczytacie, pojawią się całkiem duże założenia!

Przyjmuje się, że przyjęta definicja „bliskości” zakłada „zachowanie informacji w naszym zbiorze danych”, ale ponieważ nie została ona formalnie zdefiniowana w terminach teoretyków informacji, powstała definicja jest dość ad hoc i naprawdę ogromne założenie. W szczególności problem polega na tym, że „bliskość” jest zachowana, tj. Dwa bliskie punkty pozostają blisko, ale „dalekość” nie jest, a zatem dwa „dalekie” punkty nie pozostają daleko.

Podsumowując, byłbym bardzo ostrożny wobec takich podstępów w uczeniu maszynowym, chyba że znany jest zbiór danych rzeczywiście naturalnie euklidesowy, np. Wizualne rozpoznawanie wzorców. Nie uważam tych podejść za odpowiednie w przypadku bardziej ogólnych problemów.

— samthebest
źródło

Dzięki! Twoja odpowiedź pomogła mi lepiej zrozumieć problem. Czy mógłbyś polecić niektóre artykuły dotyczące różnorodnego założenia, o którym tu wspomniałeś?

— thinkbear

Niestety nie mogę pamiętać, Google powinien być w stanie pomóc :)

— samthebest