W 1999 r. Beyer i in. zapytał, kiedy „Nearest Neighbor” ma znaczenie?
Czy istnieją lepsze sposoby analizy i wizualizacji wpływu płaskości odległości na wyszukiwanie NN od 1999 r.?
Czy [dany] zestaw danych zawiera sensowne odpowiedzi na problem 1-NN? Problem 10-NN? Problem 100-NN?
Jak dziś eksperci podchodzą do tego pytania?
Edycje Poniedziałek 24 stycznia:
Co powiesz na „białą odległość” jako krótszą nazwę „płaskości odległości ze wzrostem wymiarów”?
Łatwym sposobem spojrzenia na „białą odległość” jest uruchomienie 2-NN i wyznaczenie odległości do najbliższego sąsiada i drugiego najbliższego sąsiada. Poniższy wykres pokazuje dist 1 i dist 2 dla szeregu klastrów i wymiarów według Monte Carlo. Ten przykład pokazuje całkiem dobry kontrast odległości dla skalowanej absolutnej różnicy | dist 2 - dist 1 |. (Różnice względne | dist 2 / dist 1 | → 1 jako wymiar → ∞, więc stają się bezużyteczne.)
To, czy błędy bezwzględne czy względne powinny być stosowane w danym kontekście, zależy oczywiście od „prawdziwego” obecnego hałasu: trudny.
Sugestia: zawsze uruchamiaj 2-NN; 2 sąsiedzi są przydatni, gdy są blisko, i przydatni, gdy nie są.