Kiedy zastosować odległość Manhattanu jako przeciwieństwo odległości euklidesowej?


18

Próbuję poszukać dobrego argumentu na temat tego, dlaczego warto wykorzystać odległość Manhattanu nad odległością euklidesową w uczeniu maszynowym.

Najbliższa mi jak dotąd dobra argumentacja dotyczy wykładu MIT .

W 36:15 na slajdach można zobaczyć następujące oświadczenie:

„Zazwyczaj stosuj dane euklidesowe; Manhattan może być odpowiedni, jeśli różne wymiary nie są porównywalne ”.

Krótko po tym, jak profesor powiedział, że ponieważ liczba odnóży gada waha się od 0 do 4 (podczas gdy inne funkcje są binarne, różnią się od 0 do 1), funkcja „liczba odnóży” będzie miała znacznie wyższą wartość waga, jeśli zastosowano odległość euklidesową. Rzeczywiście, to prawda. Ale ten problem również miałby miejsce przy użyciu odległości na Manhattanie (tylko że problem zostałby nieco złagodzony, ponieważ nie wyrównujemy różnicy, jak to robimy na odległości euklidesowej).

Lepszym sposobem rozwiązania powyższego problemu byłaby normalizacja funkcji „liczba odnóży”, więc jej wartość zawsze będzie wynosić od 0 do 1.

Dlatego, ponieważ istnieje lepszy sposób na rozwiązanie tego problemu, wydawało się, że argument dotyczący użycia odległości Manhattanu w tym przypadku nie był mocniejszy, przynajmniej moim zdaniem.

Czy ktoś faktycznie wie, dlaczego i kiedy ktoś wykorzystałby odległość Manhattanu nad Euclideanem? Czy ktoś może mi podać przykład, w którym użycie odległości na Manhattanie dałoby lepsze wyniki?

Odpowiedzi:


4

Według tego interesującego artykułu odległość Manhattanu (norma L1) może być lepsza niż odległość euklidesowa (norma L2) w przypadku danych o dużych wymiarach:

https://bib.dbvis.de/uploadedFiles/155.pdf

Autorzy artykułu posunęli się nawet o krok dalej i sugerują zastosowanie odległości normalnych Lk o wartości ułamkowej k dla danych o bardzo dużych wymiarach w celu poprawy wyników algorytmów opartych na odległości, takich jak grupowanie.


stats.stackexchange.com/a/99191 zapewnia pełniejszą odpowiedź
mikrofon

3

Mogę zasugerować kilka pomysłów z wikipedii .

  1. Jeśli chcesz kłaść mniejszy nacisk na wartości odstające, odległość na Manhattanie spróbuje jednakowo zmniejszyć wszystkie błędy, ponieważ gradient ma stałą wielkość.
  2. Jeśli twój hałas jest dystrybuowany Laplacian, MLE można znaleźć, minimalizując szacunek Manhattanu.

3

Znalazłem coś, co może być intuicją na temat tego problemu w praktycznym uczeniu maszynowym za pomocą Scikit-Learn i TensorFlow

Zarówno RMSE, jak i MAE są sposobami pomiaru odległości między dwoma wektorami: wektorem prognoz i wektorem wartości docelowych. Możliwe są różne miary odległości lub normy:

  • Obliczenie pierwiastka z sumy kwadratów (RMSE) odpowiada normie euklidesowej: znamy pojęcie odległości. Jest również nazywany normą ℓ2 (...)

  • Obliczenie sumy absolutów (MAE) odpowiada normie ℓ1, (...). Czasami nazywa się to normą Manhattan, ponieważ mierzy odległość między dwoma punktami w mieście, jeśli można podróżować tylko wzdłuż prostopadłych bloków miasta.

  • Mówiąc bardziej ogólnie, (...) ℓ 0 po prostu podaje liczbę niezerowych elementów w wektorze, a ℓ∞ podaje maksymalną wartość bezwzględną w wektorze.

  • Im wyższy wskaźnik norm, tym bardziej koncentruje się na dużych wartościach i pomija małe. Dlatego RMSE jest bardziej wrażliwy na wartości odstające niż MAE. Ale gdy wartości odstające występują wykładniczo rzadko (jak na krzywej w kształcie dzwonu), RMSE działa bardzo dobrze i jest ogólnie preferowane.


2

Korzystanie z odległości na Manhattanie zależy w dużej mierze od rodzaju układu współrzędnych, z którego korzysta Twój zestaw danych. Podczas gdy odległość euklidesowa zapewnia najkrótszą lub minimalną odległość między dwoma punktami, Manhattan ma konkretne implementacje.

Na przykład, jeśli użyjemy zestawu danych szachowych, użycie odległości na Manhattanie jest bardziej odpowiednie niż odległość euklidesowa. Innym zastosowaniem byłoby, gdyby byli zainteresowani znajomością odległości między domami, które są kilka przecznic od siebie.

Warto również rozważyć odległość na Manhattanie, jeśli zmienne wejściowe nie są podobne pod względem typu (np. Wiek, płeć, wzrost itp.). Z powodu klątwy wymiarowej wiemy, że odległość euklidesowa staje się złym wyborem, gdy liczba wymiarów rośnie.

W skrócie: odległość na Manhattanie działa na ogół tylko wtedy, gdy punkty są ułożone w postaci siatki, a problem, nad którym pracujemy, daje większy priorytet odległości między punktami tylko wraz z siatkami, ale nie odległości geometrycznej.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.