Czy ktoś używa metryk lub do grupowania, a nie ?
Aggarwal i wsp.,
O zaskakującym zachowaniu wskaźników odległości w przestrzeni wielowymiarowej
powiedział (w 2001)
jest konsekwentnie bardziej preferowany niż metryczny euklidesowy wskaźnik odległości L 2 dla aplikacji eksploracji danych o dużych wymiarach
i twierdził, że lub L .1 mogą być jeszcze lepsze.
Powody stosowania lub L .5 mogą być teoretyczne lub eksperymentalne, np. Wrażliwość na wartości odstające / dokumenty Kabána lub programy uruchamiane na danych rzeczywistych lub syntetycznych (proszę odtwarzać). Przykład lub zdjęcie pomogłoby intuicji mojego laika.
To pytanie jest kontynuacją odpowiedzi Boba Durranta na „ Kiedy-najbliższy sąsiad-znaczący-dziś” . Jak mówi, wybór będzie zależał zarówno od danych, jak i od aplikacji; mimo to przydatne byłyby raporty z prawdziwych doświadczeń.
Dodano uwagi we wtorek 7 czerwca:
Natknąłem się na „Analizę danych statystycznych w oparciu o normę L1 i powiązane metody”, Dodge red., 2002, 454p, isbn 3764369205 - dziesiątki artykułów konferencyjnych.
Czy ktoś może analizować koncentrację odległości pod kątem cech wykładniczych? Jednym z powodów wykładniczych jest to, że ; innym (nie ekspertem) jest to, że jest to rozkład maks. entropii ≥ 0; po trzecie, niektóre rzeczywiste zestawy danych, w szczególności SIFT, wyglądają w przybliżeniu wykładniczo.