Ok, przeanalizujmy przykład dziecka grupującego zabawki.
Wyobraź sobie, że dziecko ma tylko 3 zabawki:
- niebieska piłka
- niebieski freesbe
- zielony sześcian (ok, może nie jest to najfajniejsza zabawka, jaką możesz sobie wyobrazić)
Zróbmy następującą wstępną hipotezę dotyczącą tego, jak można zrobić zabawkę:
- Możliwe kolory to: czerwony, zielony, niebieski
- Możliwe kształty to: koło, kwadrat, trójkąt
Teraz możemy mieć (num_colors * num_shapes) = 3 * 3 = 9 możliwych klastrów.
Chłopiec grupuje zabawki w następujący sposób:
- CLUSTER A) zawiera niebieską kulkę i niebieską freesbe, ponieważ mogą mieć ten sam kolor i kształt
- CLUSTER B) zawiera super zabawny zielony sześcian
Używając tylko tych 2 wymiarów (koloru, kształtu) mamy 2 niepuste skupiska: w tym pierwszym przypadku 7/9 ~ 77% naszej przestrzeni jest puste.
Teraz zwiększmy liczbę wymiarów, które dziecko musi wziąć pod uwagę. Robimy również następującą hipotezę dotyczącą sposobu wykonania zabawki:
- Rozmiar zabawki może wynosić od kilku centymetrów do 1 metra, z krokiem dziesięciu centymetrów: 0-10 cm, 11-20 cm, ..., 91 cm-1 m
- Waga zabawki może zmieniać się w podobny sposób do 1 kilograma, w krokach co 100 gramów: 0-100 g, 101-200 g, ..., 901 g-1 kg.
Jeśli chcemy teraz klastrować nasze zabawki, mamy (num_colours * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 możliwych klastrów.
Chłopiec grupuje zabawki w następujący sposób:
- CLUSTER A) zawiera niebieską piłkę, ponieważ jest niebieska i ciężka
- CLUSTER B) zawiera niebieski freesbe, ponieważ jest niebieski i lekki
- CLUSTER C) zawiera super zabawny zielony sześcian
Używając aktualnych 4 wymiarów (kształt, kolor, rozmiar, waga) tylko 3 skupienia nie są puste: w tym przypadku 897/900 ~ 99,7% przestrzeni jest puste.
To jest przykład tego, co można znaleźć na Wikipedii ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... gdy wymiarowość rośnie, objętość przestrzeni rośnie tak szybko, że dostępne dane stają się rzadkie.
Edycja: Nie jestem pewien, czy naprawdę potrafiłbym wyjaśnić dziecku, dlaczego dystans czasami nie jest dobry w przestrzeniach o dużych wymiarach, ale spróbujmy pójść za naszym przykładem dziecka i jego zabawek.
Rozważ tylko dwie pierwsze cechy {kolor, kształt} wszyscy zgadzają się, że niebieska kula jest bardziej podobna do niebieskiego freesbe niż do zielonej kostki.
Dodajmy teraz 98 innych funkcji (powiedzmy: rozmiar, waga, dzień produkcji), materiał, miękkość, dzień w którym to zabawka była , kupowana przez tatusia, cena itp.: Cóż, dla mnie trudniej byłoby ocenić, która zabawka jest podobna do której.
Więc:
- Duża liczba funkcji może być nieistotna w pewnym porównaniu podobieństwa, co prowadzi do uszkodzenia stosunku sygnału do szumu.
- W wysokich wymiarach wszystkie przykłady wyglądają podobnie.
Jeśli mnie posłuchasz, dobrym wykładem jest „Kilka przydatnych rzeczy na temat uczenia maszynowego” ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), w szczególności pkt 6 rodzaj rozumowania.
Mam nadzieję że to pomoże!