Czytałem, że „odległość euklidesowa nie jest dobrą odległością w dużych wymiarach”. Myślę, że to stwierdzenie ma coś wspólnego z przekleństwem wymiarowości, ale co dokładnie? Poza tym, co to są „wysokie wymiary”? Stosuję hierarchiczne grupowanie przy użyciu odległości euklidesowej ze 100 funkcjami. Do ilu funkcji można bezpiecznie korzystać z tych danych?
Używając analizy skupień w zbiorze danych do grupowania podobnych przypadków, należy wybierać spośród wielu metod grupowania i miar odległości. Czasami jeden wybór może wpływać na drugi, ale istnieje wiele możliwych kombinacji metod. Czy ktoś ma jakieś zalecenia dotyczące wyboru różnych algorytmów / metod grupowania i pomiarów odległości ? W jaki …
Czy jest jakiś konkretny cel pod względem wydajności lub funkcjonalności, dlaczego algorytm k-średnich nie wykorzystuje na przykład podobieństwa (dis) cosinusa jako metryki odległości, a może jedynie stosować normę euklidesową? Zasadniczo, czy metoda K-oznacza jest zgodna i poprawna, gdy rozważa się lub stosuje inne odległości niż euklidesowe? [Dodane przez @ttnphns. Pytanie …
Załóżmy, że otrzymujesz dwa obiekty, których dokładne lokalizacje są nieznane, ale są rozmieszczone zgodnie z normalnymi rozkładami o znanych parametrach (np. i b ∼ N ( v , t ) ) . Można założyć, obie są normalne dwuwymiarowe, takie, że pozycje są opisane przez rozkład w ( x , y …
Widzę, że istnieje wiele formalnych różnic między miarami odległości Kullback – Leibler vs. Kołmogorow-Smirnov. Oba są jednak używane do pomiaru odległości między rozkładami. Czy istnieje typowa sytuacja, w której należy użyć jednej zamiast drugiej? Jakie jest uzasadnienie tego?
W moim zestawie danych mamy zarówno zmienne ciągłe, jak i naturalnie dyskretne. Chcę wiedzieć, czy możemy przeprowadzać hierarchiczne grupowanie przy użyciu obu typów zmiennych. A jeśli tak, jaki pomiar odległości jest odpowiedni?
[Początkowy tytuł „Pomiar podobieństwa dla hierarchicznych drzew klastrowych” został później zmieniony przez @ttnphns, aby lepiej odzwierciedlić temat] Przeprowadzam szereg hierarchicznych analiz skupień na ramce danych rekordów pacjentów (np. Podobnie do http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Eksperymentuję z różnymi miarami odległości , różnymi wagami parametrów i różnymi metodami hierarchicznymi , aby zrozumieć ich wpływ …
Szukam dobrej terminologii do opisania tego, co próbuję zrobić, aby ułatwić wyszukiwanie zasobów. Powiedzmy, że mam dwa skupienia punktów A i B, każdy powiązany z dwiema wartościami, X i Y, i chcę zmierzyć „odległość” między A i B - tzn. Jak prawdopodobne jest, że próbkowano je z tego samego rozkładu …
W otoczeniu, w którym obserwujemy X1,…,XnX1,…,XnX_1,\ldots,X_n rozproszone z rozkładu o gęstości fff , zastanawiam się, czy istnieje obiektywny estymator (oparty na XiXiX_i ) odległości Hellingera do innego rozkładu o gęstości f0f0f_0 , mianowicie H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.
Mam zestaw danych, w którym każde dane składa się z różnych miar. Dla każdego pomiaru mam wartość odniesienia. Chciałbym wiedzieć, jak blisko są wszystkie dane do wartości odniesienia.nnn Pomyślałem o użyciu ważonej odległości euklidesowej w następujący sposób: rex , b= ( ∑ni = 1wja( xja- bja)2)) )1 / 2rex,b=(∑ja=1nwja(xja-bja)2)))1/2)\hspace{0.5in} d_{x,b}=\left( …
Korzystam z hierarchicznego grupowania do analizy danych szeregów czasowych. Mój kod jest implementowany za pomocą funkcji MathematicaDirectAgglomerate[...] , która generuje hierarchiczne klastry przy następujących danych wejściowych: macierz odległości D nazwa metody zastosowanej do ustalenia powiązania między klastrami. Obliczyłem macierz odległości D na podstawie odległości Manhattan: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| …
Grupuję rozkłady prawdopodobieństwa za pomocą algorytmu propagacji powinowactwa i planuję użyć dywergencji Jensena-Shannona jako miary odległości. Czy poprawne jest użycie samego JSD jako odległości lub kwadratu JSD? Dlaczego? Jakie różnice wynikałyby z wyboru jednego lub drugiego?
Czy ktoś używa metryk L1L1L_1 lub L.5L.5L_.5 do grupowania, a nie L2L2L_2 ? Aggarwal i wsp., O zaskakującym zachowaniu wskaźników odległości w przestrzeni wielowymiarowej powiedział (w 2001) jest konsekwentnie bardziej preferowany niż metryczny euklidesowy wskaźnik odległości L 2 dla aplikacji eksploracji danych o dużych wymiarachL1L1L_1L2L2L_2 i twierdził, że lub L …
Właśnie pracuję z książką Collective Intelligence (autor: Toby Segaran) i natknąłem się na euklidesową ocenę odległości. W książce autor pokazuje, jak obliczyć podobieństwo między dwiema tablicami rekomendacji (tj. .person×movie↦score)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) Oblicza odległość euklidesową dla dwóch osób i według p 2 d ( p 1 , p 2 …
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.