Metryka to funkcja, która wyprowadza odległość między 2 elementami zestawu i spełnia określone ścisłe kryteria (niektóre funkcje „odległości” nie są metrykami).
Czytałem, że „odległość euklidesowa nie jest dobrą odległością w dużych wymiarach”. Myślę, że to stwierdzenie ma coś wspólnego z przekleństwem wymiarowości, ale co dokładnie? Poza tym, co to są „wysokie wymiary”? Stosuję hierarchiczne grupowanie przy użyciu odległości euklidesowej ze 100 funkcjami. Do ilu funkcji można bezpiecznie korzystać z tych danych?
Zastanawiałem się, biorąc pod uwagę dwie normalne dystrybucje z iσ 2 , μ 2σ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2), μ 2)σ2), μ2)\sigma_2, \ \mu_2 jak mogę obliczyć procent nakładających się regionów dwóch rozkładów? Podejrzewam, że ten problem ma konkretną nazwę. Czy znasz jakieś konkretne nazwy opisujące ten problem? Czy znasz jakieś …
Czytam niektóre definicje przywołania i precyzji, choć zawsze za każdym razem w kontekście wyszukiwania informacji. Zastanawiałem się, czy ktoś mógłby wyjaśnić to nieco bardziej w kontekście klasyfikacji i może zilustrować kilka przykładów. Powiedzmy na przykład, że mam binarny klasyfikator, który daje mi precyzję 60% i przywołanie 95%, czy to dobry …
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
Jaka jest praktyczna różnica między miarą Wassersteina a dywergencją Kullbacka-Leiblera ? Metryka Wassersteina jest również nazywana odległością przemieszczającego się Ziemi . Z Wikipedii: Metryka Wassersteina (lub Vasersteina) jest funkcją odległości zdefiniowaną między rozkładami prawdopodobieństwa w danej przestrzeni metrycznej M. i Rozbieżność Kullbacka – Leiblera jest miarą tego, jak jeden rozkład …
Czy można kontrolować koszt błędnej klasyfikacji w pakiecie R randomForest ? W mojej własnej pracy fałszywe negatywy (np. Brak pomyłki, że dana osoba może mieć chorobę) są znacznie bardziej kosztowne niż fałszywie pozytywne. Pakiet rpart pozwala użytkownikowi kontrolować koszty błędnej klasyfikacji, określając macierz strat do różnej wagi błędnych klasyfikacji. Czy …
Zastanawiałem się, czy ktokolwiek miałby wgląd lub intuicję za różnicą między zmiennością informacji a indeksem Rand do porównywania klastrów. Przeczytałem artykuł „ Porównywanie klastrów - odległość oparta na informacjach ” autorstwa Marii Melii (Journal of Multivariate Analysis, 2007), ale poza zauważeniem różnicy w definicjach, nie rozumiem, co to za odmiana …
Rozbieżność Kullbacka-Leiblera to metryka służąca do porównania dwóch funkcji gęstości prawdopodobieństwa, ale jaką metrykę stosuje się do porównania XXX i Y dwóch GP YY?
Wiem, że dywergencja KL nie jest symetryczna i nie można jej uważać za miarę. Jeśli tak, to dlaczego jest używane, gdy JS Divergence spełnia wymagane właściwości metryki? Czy istnieją scenariusze, w których można zastosować dywergencję KL, ale nie dywergencję JS lub odwrotnie?
Badając odległość Kullbacka – Leiblera, bardzo szybko dowiadujemy się dwóch rzeczy, że nie szanuje ani nierówności trójkąta, ani symetrii, wymaganych właściwości metryki. Moje pytanie dotyczy tego, czy istnieje metryka funkcji gęstości prawdopodobieństwa, która spełnia wszystkie ograniczenia metryki .
W przypadku hierarchicznego grupowania często widzę następujące dwie „metryki” (nie do końca mówią) do pomiaru odległości między dwiema losowymi zmiennymi i : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, Y) i = 1- | \ Cor (X, Y) |, \\ d_2 (X, Y) i = …
Jakie są „najlepsze” wskaźniki dla macierzy kowariancji i dlaczego? Jest dla mnie jasne, że Frobenius i c nie są odpowiednie, a parametryzacje kątów również mają swoje problemy. Intuicyjnie można chcieć kompromisu między tymi dwoma, ale chciałbym również wiedzieć, czy istnieją inne aspekty, o których należy pamiętać i być może dobrze …
Chciałbym zakodować klastry kmeans w pythonie przy użyciu pand i scikit learning. Aby wybrać dobre k, chciałbym zakodować statystykę luk z Tibshirani i in. 2001 ( pdf ). Chciałbym wiedzieć, czy mogę użyć wyniku bezwładności scikit i dostosować formułę statystyki szczeliny bez konieczności przekodowywania wszystkich obliczeń odległości. Czy ktoś zna …
Powiedzmy, że definiujemy odległość, która nie jest miarą , między N elementami. Na podstawie tej odległości stosujemy następnie aglomeracyjne hierarchiczne grupowanie . Czy możemy zastosować każdy ze znanych algorytmów (połączenie pojedyncze / maksymalne / średnie itp.), Aby uzyskać znaczące wyniki? Lub inaczej: jaki jest problem z ich użyciem, jeśli odległość …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.