Próbuję poszukać dobrego argumentu na temat tego, dlaczego warto wykorzystać odległość Manhattanu nad odległością euklidesową w uczeniu maszynowym.
Najbliższa mi jak dotąd dobra argumentacja dotyczy wykładu MIT .
W 36:15 na slajdach można zobaczyć następujące oświadczenie:
„Zazwyczaj stosuj dane euklidesowe; Manhattan może być odpowiedni, jeśli różne wymiary nie są porównywalne ”.
Krótko po tym, jak profesor powiedział, że ponieważ liczba odnóży gada waha się od 0 do 4 (podczas gdy inne funkcje są binarne, różnią się od 0 do 1), funkcja „liczba odnóży” będzie miała znacznie wyższą wartość waga, jeśli zastosowano odległość euklidesową. Rzeczywiście, to prawda. Ale ten problem również miałby miejsce przy użyciu odległości na Manhattanie (tylko że problem zostałby nieco złagodzony, ponieważ nie wyrównujemy różnicy, jak to robimy na odległości euklidesowej).
Lepszym sposobem rozwiązania powyższego problemu byłaby normalizacja funkcji „liczba odnóży”, więc jej wartość zawsze będzie wynosić od 0 do 1.
Dlatego, ponieważ istnieje lepszy sposób na rozwiązanie tego problemu, wydawało się, że argument dotyczący użycia odległości Manhattanu w tym przypadku nie był mocniejszy, przynajmniej moim zdaniem.
Czy ktoś faktycznie wie, dlaczego i kiedy ktoś wykorzystałby odległość Manhattanu nad Euclideanem? Czy ktoś może mi podać przykład, w którym użycie odległości na Manhattanie dałoby lepsze wyniki?