Statystyki i duże zbiory danych euclidean

7

Odległość euklidesowa zwykle nie jest dobra dla rzadkich danych?

Widziałem gdzieś, że klasyczne odległości (takie jak odległość euklidesowa) stają się słabo dyskryminujące, gdy mamy wielowymiarowe i rzadkie dane. Dlaczego? Czy masz przykład dwóch rzadkich wektorów danych, w których odległość euklidesowa nie działa dobrze? W takim przypadku, jakiego podobieństwa powinniśmy użyć?

72 machine-learning clustering data-mining sparse euclidean

6

Dlaczego algorytm klastrowania k-oznacza używa wyłącznie metryki odległości euklidesowej?

Czy jest jakiś konkretny cel pod względem wydajności lub funkcjonalności, dlaczego algorytm k-średnich nie wykorzystuje na przykład podobieństwa (dis) cosinusa jako metryki odległości, a może jedynie stosować normę euklidesową? Zasadniczo, czy metoda K-oznacza jest zgodna i poprawna, gdy rozważa się lub stosuje inne odległości niż euklidesowe? [Dodane przez @ttnphns. Pytanie …

62 clustering k-means distance-functions euclidean

2

Czy podobieństwo cosinus jest identyczne z odległością euklidesową znormalizowaną przez l2?

Identyczne ten sposób, że spowoduje to identyczne wyniki dla podobieństwa kolejności pomiędzy wektorem u i zestaw wektorów V . Mam model przestrzeni wektorowej, który ma parametry pomiaru odległości (odległość euklidesowa, podobieństwo cosinusa) i techniki normalizacji (brak, l1, l2) jako parametrów. Z mojego zrozumienia, wyniki z ustawień [cosinus, none] powinny być …

27 normalization natural-language euclidean cosine-distance cosine-similarity

1

Przeliczanie macierzy podobieństwa na macierz odległości (euklidesowa)

W algorytmie Losowy las Breiman (autor) konstruuje macierz podobieństwa w następujący sposób: Wyślij wszystkie przykłady uczenia się w dół każdego drzewa w lesie Jeśli dwa przykłady wylądują w tym samym przyrostu liścia, odpowiedni element w macierzy podobieństwa o 1 Normalizuj matrycę z liczbą drzew On mówi: Bliskości między przypadkami n …

27 random-forest distance similarities euclidean

5

Jak przekonwertować odległość (euklidesowa) na wynik podobieństwa

Korzystam z oznacza grupowanie głosów w klastrze. Kiedy porównuję wypowiedź do danych głośników w klastrze, otrzymam (na podstawie odległości euklidesowej) średnie zniekształcenie. Odległość ta może wynosić . Chcę przekonwertować tę odległość na wynik podobieństwa . Proszę o wskazówki, jak to osiągnąć.[ 0 , ∞ ] [ 0 , 1 ]kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

13 clustering k-means distance euclidean

1

Zalety odległości Jeffries Matusita

Według niektórych artykułów, które czytam, powszechnie stosuje się odległość Jeffriesa i Matusity. Ale nie mogłem znaleźć wielu informacji na ten temat, z wyjątkiem poniższej formuły JMD (x, y) = ∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Jest podobny do odległości euklidesowej z wyjątkiem pierwiastka kwadratowego E (x, y) = ∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} Pod względem klasyfikacji odległość JM jest …

11 classification k-nearest-neighbour euclidean

3

Jakiej odległości użyć? np. manhattan, euklidesowy, Bray-Curtis itp

Nie jestem ekologiem społeczności, ale obecnie pracuję nad danymi dotyczącymi ekologii społeczności. To, czego nie mogłem zrozumieć, oprócz matematyki tych odległości, to kryteria dla każdej odległości do wykorzystania i w jakich sytuacjach można ją zastosować. Na przykład, czego używać z danymi zliczania? Jak przekonwertować kąt nachylenia między dwiema lokalizacjami na …

11 distance euclidean

1

Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?

Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

Moja sieć neuronowa nie może nawet nauczyć się odległości euklidesowej

Próbuję więc nauczyć się sieci neuronowych (do zastosowań regresji, nie klasyfikując zdjęć kotów). Moje pierwsze eksperymenty polegały na uczeniu sieci implementacji filtra FIR i dyskretnej transformaty Fouriera (trening sygnałów „przed” i „po”), ponieważ są to operacje liniowe, które mogą być realizowane przez pojedynczą warstwę bez funkcji aktywacji. Oba działały dobrze. …

9 machine-learning neural-networks optimization keras euclidean

Pytania otagowane jako euclidean