Ustaw podobieństwo - Oblicz indeks Jaccard bez kwadratowej złożoności


14

Mam grupę n zestawów, dla których muszę obliczyć wartość „unikatowości” lub „podobieństwa”. Jako odpowiedni wskaźnik zdecydowałem się na indeks Jaccard . Niestety indeks Jaccard działa tylko na dwóch zestawach na raz. Aby obliczyć podobieństwo między wszystkimi zbiorami, będzie to wymagało w kolejności n 2 obliczeń Jaccard.nn2)

(Jeśli to pomaga, wynosi zwykle od 10 do 10000, a każdy zestaw zawiera średnio 500 elementów. Na koniec nie obchodzi mnie, jak podobne są dwa dowolne określone zestawy - zależy mi raczej na wewnętrznym podobieństwie całej grupy zbiorów jest (innymi słowy, średnia (lub przynajmniej wystarczająco dokładne przybliżenie średniej) wszystkich indeksów Jaccard w grupie))n

Dwa pytania:

  1. Czy istnieje sposób, aby nadal używać indeksu Jaccard bez złożoności ?n2)
  2. Czy istnieje lepszy sposób obliczenia podobieństwa / wyjątkowości zestawu w grupie zbiorów niż sposób, który zasugerowałem powyżej?

Czy możesz najpierw wyjaśnić, co rozumiesz przez „wewnętrzne podobieństwo”?
Suresh,

Innymi słowy, średnia (lub przynajmniej wystarczająco dokładne przybliżenie średniej) wszystkich indeksów Jaccard w grupie.

5
Jeśli chcesz zbliżyć się do odpowiedzi, możesz użyć skrótu minimalnego, aby oszacować przybliżoną odległość Jaccard, a następnie użyć wynikowej reprezentacji do obliczenia pożądanej średniej.
Suresh

6
Nie wiem, co rozumiesz przez „wystarczająco dokładny”, ale jednym ze sposobów oszacowania średniej wielu rzeczy jest po prostu obliczenie kilku z nich (w tym przypadku indeksów Jaccard kilku par zestawów) i obliczenie ich średniej. Następnie możesz użyć granicy Chernoffa, aby uzyskać górną granicę prawdopodobieństwa, że ​​ta ocena jest daleka od prawdziwej średniej.
Tsuyoshi Ito,

Odpowiedzi:


4

Opcją może być zastosowanie schematu sygnatur [1], filtrowania opartego na rozmiarach : schematu, który wykorzystuje informacje o rozmiarze w celu zmniejszenia liczby par zestawów, które należy wziąć pod uwagę.

Eksperymentują także z formą ważoną; gdzie wagi są oparte na IDF.

[1] Arasu, Arvind, Venkatesh Ganti i Raghav Kaushik. „Skuteczne łączenie dokładnego podobieństwa zestawu”. W materiałach z 32. międzynarodowej konferencji na temat bardzo dużych baz danych, 918–929. VLDB '06. VLDB Endowment, 2006


Wydaje się, że ten link umarł. Rozważ zaktualizowanie go do vldb.org/conf/2006/p918-arasu.pdf .
j_random_hacker

0

Inną opcją byłoby zastosowanie linku wiki mieszającego lokalną wrażliwość . Widziałem, jak Wu i Zou używają go do wykrywania podobieństwa w społeczności ( Inkrementalna metoda wykrywania społeczności dla systemów tagowania społecznościowego wykorzystujących haszowanie wrażliwe na lokalizację , Neural Networks 58: 14–28; ACM DL ), który zasadniczo wykrywa podobieństwo między liczbami całkowitymi lub zestawy strun.


1
Proszę streścić zawartość linków i zacytować artykuł. Jeśli linki przestaną być aktualne, bieżąca odpowiedź stanie się bezużyteczna.
vonbrand
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.