Studiuję rozpoznawanie wzorców i statystyki i prawie każdą książkę, którą otwieram na ten temat, wpadam na pojęcie odległości Mahalanobisa . Książki zawierają intuicyjne wyjaśnienia, ale wciąż nie są wystarczająco dobre, aby naprawdę zrozumieć, co się dzieje. Gdyby ktoś zapytał mnie: „Jaka jest odległość Mahalanobisa?” Mogłem tylko odpowiedzieć: „To miła rzecz, …
Dowiedziałem się o intuicji stojącej za dywergencją KL, jak bardzo funkcja rozkładu modelu różni się od teoretycznego / prawdziwego rozkładu danych. Źródłem Czytam mówi dalej, że intuicyjne rozumienie „odległość” między tymi dwoma dystrybucjami jest pomocny, ale nie powinny być brane dosłownie, bo dla dwóch rozkładów i , KL Rozbieżność nie …
Wykonuję hierarchiczne grupowanie danych zebranych i przetworzonych ze zrzutu danych reddit w Google BigQuery. Mój proces jest następujący: Pobierz najnowsze 1000 postów w / r / politics Zbierz wszystkie komentarze Przetwarzaj dane i oblicz n x mmacierz danych (n: users / samples, m: posts / features) Oblicz macierz odległości dla …
W algorytmie Losowy las Breiman (autor) konstruuje macierz podobieństwa w następujący sposób: Wyślij wszystkie przykłady uczenia się w dół każdego drzewa w lesie Jeśli dwa przykłady wylądują w tym samym przyrostu liścia, odpowiedni element w macierzy podobieństwa o 1 Normalizuj matrycę z liczbą drzew On mówi: Bliskości między przypadkami n …
Czy istnieje formuła zamknięta dla (lub pewnego rodzaju powiązania) EMD między i ?x 2 ∼ N ( μ 2 , Σ 2 )x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1)x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2)
Test Mantela jest zwykle stosowany do symetrycznych macierzy odległości / różnic. O ile rozumiem, założeniem testu jest to, że miarą używaną do definiowania różnic musi być co najmniej półmetryka (spełniać standardowe wymagania metryki, ale nie nierówność trójkąta). Czy założenie symetrii może być złagodzone (dając pre-metrykę)? Czy w tym przypadku można …
Chciałbym zhierarchizować moje dane, ale zamiast korzystać z odległości euklidesowej, chciałbym zastosować korelację. Ponadto, ponieważ współczynnik korelacji wynosi od -1 do 1, przy czym zarówno -1, jak i 1 oznaczają „współregulację” w moim badaniu, traktuję zarówno -1, jak i 1 jako d = 0. Więc moje obliczenia wynoszą re= 1 …
Chcę wykonać K-oznacza grupowanie obiektów, które mam, ale obiekty te nie są opisywane jako punkty w przestrzeni, tj. Przez objects x featureszestaw danych. Jestem jednak w stanie obliczyć odległość między dowolnymi dwoma obiektami (jest ona oparta na funkcji podobieństwa). Pozbywam się macierzy odległości objects x objects. Wcześniej zaimplementowałem K-średnich, ale …
Mam dwie funkcje gęstości prawdopodobieństwa rozkładów normalnych: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } i f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Szukam funkcji gęstości prawdopodobieństwa separacji między i . Myślę, że to oznacza, że szukam funkcji gęstości …
Większość klasycznych algorytmów grupowania i zmniejszania wymiarów (grupowanie hierarchiczne, analiza głównych składników, średnie k, samoorganizujące się mapy ...) są zaprojektowane specjalnie dla danych liczbowych, a ich dane wejściowe są postrzegane jako punkty w przestrzeni euklidesowej. Jest to oczywiście problem, ponieważ wiele rzeczywistych pytań obejmuje mieszane dane: na przykład, jeśli studiujemy …
Proszę udowodnić, że jeśli mamy dwie zmienne (równa wielkość próby) i Y, a wariancja w X jest większa niż w Y , wówczas suma kwadratowych różnic (tj. Kwadratowych odległości euklidesowych) między punktami danych w X jest również większa niż że w Y .XXXYYYXXXYYYXXXYYY
Muszę obliczyć przykładową odległość Mahalanobisa w R pomiędzy każdą parą obserwacji w macierzy współzmiennych . Potrzebuję rozwiązania, które jest wydajne, tj. Obliczane są tylko odległości, a najlepiej realizowane w C / RCpp / Fortran itp. Zakładam, że , macierz kowariancji populacyjnej, jest nieznana i wykorzystuję próbkę macierz kowariancji na swoim …
Używam KL Divergence jako miary odmienności między 2 p.m.f.p.m.f.p.m.f. PPP i QQQ . DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Jeśli to możemy łatwo obliczyć, że P ( X i ) l n ( Q ( X i ) ) = 0 P ( …
Zamierzam użyć rozbieżności KL w moim kodzie python i mam ten samouczek . W tym samouczku wdrożenie rozbieżności KL jest dość proste. kl = (model * np.log(model/actual)).sum() Jak rozumiem, rozkład prawdopodobieństwa modeli actualpowinien wynosić <= 1. Moje pytanie brzmi: jaka jest maksymalna związana / maksymalna możliwa wartość k ?. Muszę …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.