Pytania otagowane jako metric

Metryka to funkcja, która wyprowadza odległość między 2 elementami zestawu i spełnia określone ścisłe kryteria (niektóre funkcje „odległości” nie są metrykami).

8
Dlaczego odległość euklidesowa nie jest dobrym miernikiem w dużych wymiarach?
Czytałem, że „odległość euklidesowa nie jest dobrą odległością w dużych wymiarach”. Myślę, że to stwierdzenie ma coś wspólnego z przekleństwem wymiarowości, ale co dokładnie? Poza tym, co to są „wysokie wymiary”? Stosuję hierarchiczne grupowanie przy użyciu odległości euklidesowej ze 100 funkcjami. Do ilu funkcji można bezpiecznie korzystać z tych danych?


4
Przywołanie i precyzja w klasyfikacji
Czytam niektóre definicje przywołania i precyzji, choć zawsze za każdym razem w kontekście wyszukiwania informacji. Zastanawiałem się, czy ktoś mógłby wyjaśnić to nieco bardziej w kontekście klasyfikacji i może zilustrować kilka przykładów. Powiedzmy na przykład, że mam binarny klasyfikator, który daje mi precyzję 60% i przywołanie 95%, czy to dobry …

1
Obliczanie powtarzalności efektów z modelu Lmer
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Jakie zalety ma metryka Wassersteina w porównaniu do dywergencji Kullbacka-Leiblera?
Jaka jest praktyczna różnica między miarą Wassersteina a dywergencją Kullbacka-Leiblera ? Metryka Wassersteina jest również nazywana odległością przemieszczającego się Ziemi . Z Wikipedii: Metryka Wassersteina (lub Vasersteina) jest funkcją odległości zdefiniowaną między rozkładami prawdopodobieństwa w danej przestrzeni metrycznej M. i Rozbieżność Kullbacka – Leiblera jest miarą tego, jak jeden rozkład …

5
Jak kontrolować koszty błędnej klasyfikacji w losowych lasach?
Czy można kontrolować koszt błędnej klasyfikacji w pakiecie R randomForest ? W mojej własnej pracy fałszywe negatywy (np. Brak pomyłki, że dana osoba może mieć chorobę) są znacznie bardziej kosztowne niż fałszywie pozytywne. Pakiet rpart pozwala użytkownikowi kontrolować koszty błędnej klasyfikacji, określając macierz strat do różnej wagi błędnych klasyfikacji. Czy …

2
Porównywanie klastrów: Indeks Rand a zmienność informacji
Zastanawiałem się, czy ktokolwiek miałby wgląd lub intuicję za różnicą między zmiennością informacji a indeksem Rand do porównywania klastrów. Przeczytałem artykuł „ Porównywanie klastrów - odległość oparta na informacjach ” autorstwa Marii Melii (Journal of Multivariate Analysis, 2007), ale poza zauważeniem różnicy w definicjach, nie rozumiem, co to za odmiana …





2
Metryki macierzy kowariancji: wady i zalety
Jakie są „najlepsze” wskaźniki dla macierzy kowariancji i dlaczego? Jest dla mnie jasne, że Frobenius i c nie są odpowiednie, a parametryzacje kątów również mają swoje problemy. Intuicyjnie można chcieć kompromisu między tymi dwoma, ale chciałbym również wiedzieć, czy istnieją inne aspekty, o których należy pamiętać i być może dobrze …

1
Formuła bezwładności grupowania w scikit learn
Chciałbym zakodować klastry kmeans w pythonie przy użyciu pand i scikit learning. Aby wybrać dobre k, chciałbym zakodować statystykę luk z Tibshirani i in. 2001 ( pdf ). Chciałbym wiedzieć, czy mogę użyć wyniku bezwładności scikit i dostosować formułę statystyki szczeliny bez konieczności przekodowywania wszystkich obliczeń odległości. Czy ktoś zna …

2
Czy odległość musi być „metryką”, aby hierarchiczna klastracja była na niej ważna?
Powiedzmy, że definiujemy odległość, która nie jest miarą , między N elementami. Na podstawie tej odległości stosujemy następnie aglomeracyjne hierarchiczne grupowanie . Czy możemy zastosować każdy ze znanych algorytmów (połączenie pojedyncze / maksymalne / średnie itp.), Aby uzyskać znaczące wyniki? Lub inaczej: jaki jest problem z ich użyciem, jeśli odległość …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.