Mam grupę n zestawów, dla których muszę obliczyć wartość „unikatowości” lub „podobieństwa”. Jako odpowiedni wskaźnik zdecydowałem się na indeks Jaccard . Niestety indeks Jaccard działa tylko na dwóch zestawach na raz. Aby obliczyć podobieństwo między wszystkimi zbiorami, będzie to wymagało w kolejności n 2 obliczeń Jaccard.
(Jeśli to pomaga, wynosi zwykle od 10 do 10000, a każdy zestaw zawiera średnio 500 elementów. Na koniec nie obchodzi mnie, jak podobne są dwa dowolne określone zestawy - zależy mi raczej na wewnętrznym podobieństwie całej grupy zbiorów jest (innymi słowy, średnia (lub przynajmniej wystarczająco dokładne przybliżenie średniej) wszystkich indeksów Jaccard w grupie))
Dwa pytania:
- Czy istnieje sposób, aby nadal używać indeksu Jaccard bez złożoności ?
- Czy istnieje lepszy sposób obliczenia podobieństwa / wyjątkowości zestawu w grupie zbiorów niż sposób, który zasugerowałem powyżej?