Mówienie o „ 99% punktów w hipersześcianie ” jest nieco mylące, ponieważ hipersześcian zawiera nieskończenie wiele punktów. Zamiast tego porozmawiajmy o głośności.
Objętość hipersześcianu jest iloczynem jego długości boków. Dla hipersześcianu z jednostką 50-wymiarową otrzymujemy Total volume=1×1×⋯×150 times=150=1.
Teraz wykluczmy granice hipersześcianu i spójrzmy na „ wnętrze ” (umieszczam to w cudzysłowie, ponieważ matematyczne określenie wnętrze ma zupełnie inne znaczenie). Zachowujemy tylko punkty x=(x1,x2,…,x50) które spełniają
0.05<x1<0.95 and 0.05<x2<0.95 and … and 0.05<x50<0.95.
Jaka jest objętość tego „wnętrza”? Cóż, „wnętrze” jest znowu hipersześcianem, a długość każdej strony wynosi0.9 (=0.95−0.05 ... pomaga to sobie wyobrazić w dwóch i trzech wymiarach). Więc objętość to ObjętośćInterior volume=0.9×0.9×⋯×0.950 times=0.950≈0.005.
Wniosek, że objętość „granicy” (zdefiniowana jako jednostka hipersześcianu bez „wnętrze ”) wynosi 1−0.950≈0.995.
To pokazuje, że 99.5% objętości 50-wymiarowego hipersześcianu jest skoncentrowane na jego „ granicy ”.
Dalsze działania: Ignatius podniósł interesujące pytanie, w jaki sposób wiąże się to z prawdopodobieństwem. Oto przykład.
Powiedzmy, że wymyśliłeś model (uczenie maszynowe), który przewiduje ceny mieszkań na podstawie 50 parametrów wejściowych. Wszystkie 50 parametrów wejściowych jest niezależnych i równomiernie rozmieszczonych między 0 a 1 .
Powiedzmy, że Twój model działa bardzo dobrze, jeśli żaden z parametrów wejściowych nie jest ekstremalny: tak długo, jak długo każdy parametr wejściowy pozostaje w przedziale od 0.05 do 0.95 , Twój model prawie idealnie przewiduje cenę mieszkania. Ale jeśli co najmniej jeden parametr wejściowy jest ekstremalny (mniejszy niż 0.05 lub większy niż0.95 ), prognozy twojego modelu są absolutnie okropne.
Każdy podany parametr wejściowy jest ekstremalny z prawdopodobieństwem tylko 10% . Czyli to dobry model, prawda? Nie! Prawdopodobieństwo, że przynajmniej jeden z 50 parametrów jest ekstremalny, wynosi 1−0.950≈0.995.
Tak więc w 99.5% przypadków prognoza twojego modelu jest okropna.
Ogólna zasada: w wysokich wymiarach ekstremalne obserwacje są regułą, a nie wyjątkiem.