W Elements of Statistics Learning wprowadzono problem podkreślenia problemów z k-nn w przestrzeniach o dużych wymiarach. Istnieje punktów danych, które są równomiernie rozmieszczone w kuli jednostkowej wymiarowej.p
Mediana odległości od początku do najbliższego punktu danych jest wyrażona przez wyrażenie:
Gdy , formuła rozkłada się do połowy promienia kuli i widzę, jak najbliższy punkt zbliża się do granicy jako , co powoduje, że intuicja za knn rozpada się w dużych wymiarach. Ale nie rozumiem, dlaczego formuła jest zależna od N. Czy ktoś mógłby wyjaśnić?p → ∞
Również książka rozwiązuje ten problem dalej, stwierdzając: „... przewidywanie jest znacznie trudniejsze w pobliżu krawędzi próbki treningowej. Trzeba ekstrapolować z sąsiednich punktów próbki, a nie interpolować między nimi”. To wydaje się głębokim stwierdzeniem, ale nie mogę zrozumieć, co to znaczy. Czy ktoś mógłby przeredagować?