Szybko staje się jasne, patrząc na wiele relacji o „różnorodnym założeniu”, że wielu pisarzy jest szczególnie niechlujnych co do jego znaczenia. Bardziej ostrożni definiują to z subtelnym, ale niezwykle ważnym zastrzeżeniem : dane leżą na lub w pobliżu wielowymiarowego kolektora.
Nawet ci, którzy nie zawierają klauzuli „lub bliskiej”, wyraźnie przyjmują różnorodne założenie jako przybliżoną fikcję, dogodną do przeprowadzania analizy matematycznej, ponieważ ich aplikacje muszą uwzględniać odchylenia między danymi a szacowaną różnorodnością. Rzeczywiście, wielu autorów później wprowadza wyraźny mechanizm odchyleń, na przykład rozważając regresję względem gdzie jest ograniczony do leżenia na różnorodnym ale może obejmować przypadkowe odchylenia. Jest to równoważne z założeniem, że krotki leżą blisko siebieyxxMk⊂Rd y(xi,yi), ale niekoniecznie, zanurzonego wymiarową wielorakie formyk
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
dla niektórych funkcji wygładzania (regresji) . Ponieważ możemy postrzegać wszystkie zaburzone punkty , które są jedynie bliskie wykresowi ( rozmaitości wymiarowej), jako leżące o o -wymiarowego kolektora , pomaga wyjaśnić, dlaczego takie niechlujstwo o odróżnienie „na” z „w pobliżu” może być nieważna w teorii.f:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
Różnica między włączeniem a zbliżeniem jest niezwykle ważna dla aplikacji. „Blisko” pozwala, aby dane mogły różnić się od kolektora. Jako taki, jeśli zdecydujesz się oszacować ten rozmaitość, wówczas można określić ilościowo typowe odchylenie między danymi a różnorodnością. Jeden zamontowany kolektor będzie lepszy od drugiego, gdy typowa wielkość odchylenia jest mniejsza, ceteris paribus.
Rysunek pokazuje dwie wersje założenia rozmaitości dla danych (duże niebieskie kropki): czarny kolektor jest stosunkowo prosty (wymaga tylko czterech parametrów do opisania), ale zbliża się tylko do „danych”, podczas gdy czerwony kropkowany kolektor pasuje do danych idealnie, ale jest skomplikowane (potrzebne jest 17 parametrów).
Podobnie jak we wszystkich takich problemach, istnieje kompromis między złożonością opisu różnorodności a dobrością dopasowania (problem nadmiernego dopasowania). Jest zawsze zdarza się, że jednowymiarowa kolektor znajduje się dopasowanie ograniczoną ilość danych w doskonale (jak czerwony przerywaną kolektora na rysunku, tylko prowadzony gładką krzywą przez wszystkie punkty , w dowolnej kolejności: prawie na pewno nie będzie się przecinał, ale jeśli tak, zaburz krzywą w sąsiedztwie takiego skrzyżowania, aby go wyeliminować). Z drugiej strony, jeśli dozwolona jest tylko ograniczona klasa rozmaitości (takich jak tylko proste hiperplany euklidesowe), dobre dopasowanie może być niemożliwe, niezależnie od wymiarów, a typowe odchylenie między danymi a dopasowaniem może być duże.Rd
Prowadzi to do prostego, praktycznego sposobu oceny różnorodnego założenia: jeśli model / predyktor / klasyfikator opracowany na podstawie różnorodnego założenia działa dobrze, to założenie było uzasadnione. Zatem odpowiednimi warunkami poszukiwanymi w pytaniu będzie to, że pewna istotna miara dobroci dopasowania będzie akceptowalnie mała. (Jaką miarę? Zależy to od problemu i jest równoznaczne z wyborem funkcji straty.)
Możliwe jest, że rozmaitości o różnych wymiarach (z różnymi rodzajami ograniczeń ich krzywizny) mogą pasować do danych - i przewidywać przetrzymywane dane - równie dobrze. Nic nie można „udowodnić” na temat „rozmaitości” leżącej u podstaw , w szczególności podczas pracy z dużymi, nieporządnymi, ludzkimi zbiorami danych. Zwykle możemy jedynie mieć nadzieję, że zamontowany kolektor jest dobrym modelem.
Jeśli nie wpadniesz na dobry model / predyktor / klasyfikator, to albo założenie rozmaitości jest nieprawidłowe, zakładasz rozmaitości o zbyt małym wymiarze lub nie wyglądałeś wystarczająco mocno lub wystarczająco dobrze.