Wyobraź sobie, że masz kilka nasion przymocowanych do szklanego talerza, który spoczywa poziomo na stole. Ze względu na sposób, w jaki zwykle myślimy o przestrzeni, można śmiało powiedzieć, że te nasiona żyją w przestrzeni dwuwymiarowej, mniej więcej, ponieważ każde ziarno można zidentyfikować za pomocą dwóch liczb, które podają współrzędne tego ziarna na powierzchni szkło.
Teraz wyobraź sobie, że bierzesz płytkę i przechylasz ją po przekątnej w górę, aby powierzchnia szkła nie była już pozioma względem ziemi. Teraz, jeśli chcesz zlokalizować jedno z nasion, masz kilka opcji. Jeśli zdecydujesz się zignorować szkło, wówczas każde ziarno wydaje się unosić w trójwymiarowej przestrzeni nad stołem, więc musisz opisać położenie każdego ziarna za pomocą trzech liczb, po jednej dla każdego kierunku przestrzennego. Ale po prostu przechylając szkło, nie zmieniłeś faktu, że nasiona nadal żyją na dwuwymiarowej powierzchni. Możesz więc opisać, jak powierzchnia szkła leży w trójwymiarowej przestrzeni, a następnie możesz opisać położenie ziaren na szkle, używając oryginalnych dwóch wymiarów.
W tym eksperymencie myślowym powierzchnia szklana jest podobna do wielowymiarowego kolektora, który istnieje w przestrzeni o wyższym wymiarze: bez względu na to, jak obracasz płytkę w trzech wymiarach, nasiona nadal żyją wzdłuż powierzchni dwuwymiarowej płaszczyzny.
Przykłady
Mówiąc bardziej ogólnie, nisko wymiarowy kolektor osadzony w przestrzeni o wyższym wymiarze jest tylko zbiorem punktów, które z jakiegokolwiek powodu uważa się za połączone lub będące częścią tego samego zestawu. W szczególności kolektor może być w jakiś sposób wykrzywiony w przestrzeni o większych wymiarach (np. Być może powierzchnia szkła jest wypaczona do kształtu misy zamiast kształtu płytki), ale kolektor nadal jest zasadniczo mało wymiarowy. Zwłaszcza w przestrzeni wielowymiarowej ten rozmaitość może przyjmować wiele różnych form i kształtów, ale ponieważ żyjemy w trójwymiarowym świecie, trudno jest wyobrazić sobie przykłady o więcej niż trzech wymiarach. Jako przykład weźmy jednak pod uwagę następujące przykłady:
- kawałek szkła (płaski, dwuwymiarowy) w przestrzeni fizycznej (trójwymiarowy)
- pojedynczy nić (jednowymiarowy) w kawałku tkaniny (dwuwymiarowy)
- kawałek tkaniny (dwuwymiarowy) zmięty w pralce (trójwymiarowy)
Typowe przykłady rozmaitości w uczeniu maszynowym (lub przynajmniej zestawach, dla których istnieje hipoteza, że żyją wzdłuż wielowymiarowych różnorodności) obejmują:
- obrazy naturalnych scen (zazwyczaj nie widać na przykład białego szumu, co oznacza, że „naturalne” obrazy nie zajmują całej przestrzeni możliwych konfiguracji pikseli)
- naturalne dźwięki (podobny argument)
- ruchy ludzkie (ciało ludzkie ma setki stopni swobody, ale ruchy wydają się żyć w przestrzeni, którą można skutecznie przedstawić za pomocą ~ 10 wymiarów)
Nauka różnorodności
Różnorodnym założeniem w uczeniu maszynowym jest to, że zamiast zakładać, że dane na świecie mogą pochodzić z każdej części możliwej przestrzeni (np. Przestrzeni wszystkich możliwych obrazów 1-megapikselowych, w tym białego szumu), bardziej sensowne jest założenie, że dane treningowe pochodzą ze stosunkowo niewielkich wymiarów rozmaitości (jak szklana płytka z nasionami). Wówczas poznanie struktury rozmaitości staje się ważnym zadaniem; ponadto wydaje się, że to zadanie uczenia się jest możliwe bez użycia oznakowanych danych treningowych.
Istnieje wiele różnych sposobów uczenia się struktury wielowymiarowego rozmaitości. Jednym z najczęściej stosowanych podejść jest PCA, który zakłada, że kolektor składa się z pojedynczej elipsoidalnej „kropli”, takiej jak naleśnik lub cygaro, osadzonej w przestrzeni o większych wymiarach. Bardziej skomplikowane techniki, takie jak izomapa, ICA lub rzadkie kodowanie, rozluźniają niektóre z tych założeń na różne sposoby.
Nauka częściowo nadzorowana
Powód, dla którego różnorodne założenie jest ważne w częściowo nadzorowanym nauczaniu, jest dwojaki. W przypadku wielu realistycznych zadań (np. Ustalenie, czy piksele na obrazie pokazują 4 czy 5), na świecie dostępnych jest znacznie więcej danych bez etykiet (np. Obrazy, które mogą zawierać cyfry) niż z etykietami (np. obrazy, które są wyraźnie oznaczone „4” lub „5”). Ponadto w pikselach obrazów dostępnych jest wiele rzędów wielkości więcej informacji niż w etykietach obrazów z etykietami. Ale, jak opisałem powyżej, naturalne obrazy nie są próbkowane z równomiernego rozkładu w konfiguracjach pikseli, więc wydaje się prawdopodobne, że istnieje pewna różnorodność, która uchwyci strukturę naturalnych obrazów.rozmaitości, podczas gdy obrazy zawierające 5s również leżą na innym, ale pobliskim rozmaitości, wówczas możemy spróbować opracować reprezentacje dla każdego z tych rozmaitości, używając tylko danych pikselowych, mając nadzieję, że różne rozmaitości będą reprezentowane przy użyciu różnych wyuczonych cech danych. Następnie, gdy mamy kilka bitów danych etykiety, możemy użyć tych bitów, aby po prostu zastosować etykiety do już zidentyfikowanych rozmaitości.
Większość tych wyjaśnień pochodzi z pracy w głębokiej i pełnometrażowej literaturze edukacyjnej. Yoshua Bengio i Yann LeCun - patrz samouczek dotyczący uczenia się na podstawie energii, mają szczególnie dostępne argumenty w tej dziedzinie.