Jak znaleźć wagi dla miary niezgodności

Chcę nauczyć się (wydedukować) wagi atrybutów dla mojej miary niepodobieństwa, której mogę używać do grupowania.

Mam kilka przykładów par obiektów, które są „podobne” (powinny znajdować się w tej samej grupie), a także kilka przykładów par obiektów, które są „nie podobne” (nie powinny być w tej samej grupie). Każdy obiekt posiada szereg cech: jeśli chcesz, możemy myśleć o każdym obiekcie jako -wymiarowej wektora cech, gdzie każda funkcja jest nieujemną liczbą całkowitą. Czy istnieją techniki wykorzystania takich przykładów podobnych / niepodobnych obiektów do oszacowania na ich podstawie optymalnych wag cech dla miary odmienności? $(a_i,b_i)$ $(c_i,d_i)$ $d$

Jeśli to pomoże, w mojej aplikacji prawdopodobnie rozsądne byłoby skoncentrowanie się na nauce miary odmienności, którą jest ważona norma L2:

re (x, y) = \sum_{jot} α_{jot} (x [jot] - y [jot])^{2)} .

$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$

gdzie wagi nie są znane i należy się ich nauczyć. (Lub może być uzasadniony jakiś rodzaj ważonej miary podobieństwa kosinusowego.) Czy istnieją dobre algorytmy do nauki wag dla takiej miary, biorąc pod uwagę przykłady? A może istnieją inne metody uczenia się miary podobieństwa / miary podobieństwa, które powinienem rozważyć? $\alpha_j$ $\alpha_j$

Liczba wymiarów jest niestety bardzo duża (tysiące lub więcej; pochodzi ona z funkcji worka słów). Mam jednak kilkadziesiąt tysięcy przykładów. Następnie mam setki tysięcy obiektów, które chcę połączyć, dlatego ważne jest uogólnienie na podstawie przykładów, aby poznać dobrą metrykę podobieństwa.

Rozumiem, że wpada to w rubrykę częściowo nadzorowanego grupowania i wygląda na to, że może mieć charakter „dostosowujący podobieństwo”, ale nie byłem w stanie znaleźć jasnych opisów algorytmów, które mogłyby być użyte do tego celu.

— DW
źródło

Bardzo interesujący problem. Jeśli dobrze rozwiążę twój problem, otrzymasz głównie pustą matrycę z elementami kodującymi podobieństwo lub odmienność par. Niektóre elementy są wypełnione, ale większości brakuje. Najpierw spróbuję wypełnić tę macierz (np. Stosując założenie niskiej rangi).

— Vladislavs Dovgalecs,

@xeon, byłoby to jedno podejście, ale ignoruje funkcje. Moja hipoteza jest taka, że niektóre funkcje są bardzo istotne, a niektóre nie są istotne, i że spojrzenie na różnicę w odpowiednich cechach daje rozsądną odmienność miary - ale jak ją znaleźć? Próba wypełnienia macierzy, jak sugerujesz, ignoruje tę strukturę, a tym samym nie w pełni wykorzystuje dostępne dane.

— DW

Jaki jest twój ostateczny cel? To nie tylko nauka metryki odległości, prawda? Chcesz kategoryzować punkty danych, prawda?

— Vladislavs Dovgalecs

Są rzeczy, które moim zdaniem nie wyjaśniłeś bardzo jasno. Czy cały zestaw par przykładowych tworzy kompletną macierz binarną (1 = podobną; 0 = niepodobną) lub brakuje niektórych informacji o komórkach? Czy macierz jest „niesprzeczna” - to znaczy, że przykładowe obiekty dzielą się na nie nakładające się klasy? Zauważ też, że żadna metoda uczenia się nie może (lub powinna być stosowana) doradzić ci rodzaju miary (na przykład L2 lub L1, na przykład), ponieważ taki wybór jest teoretyczny (zależy od rodzaju atrybutów, konceptualizacji cechy przestrzeń, metoda grupowania, której będziesz wtedy używać).

— ttnphns

Jest to zbyt ogólne, aby można było w tym miejscu znaleźć rozsądną odpowiedź. Istnieje duża ilość literatury poświęconej zarówno ważeniu cech, selekcji, jak i uczeniu się funkcji odległości. Wydaje mi się, że widziałem nawet konferencję na temat nauki o podobieństwach!

— Ma ZAKOŃCZENIE - Anony-Mousse,

Odpowiedzi:

Jest to duży problem w niektórych obszarach uczenia maszynowego. Nie jestem tak obeznany z tym, jak bym chciał, ale myślę, że powinny zacząć od początku.

Wydaje się, że redukcja wymiarów poprzez naukę mapowania niezmiennego (DrLIM) działa bardzo dobrze na niektórych zestawach danych.
Analiza komponentów sąsiedztwa jest bardzo ładnym algorytmem liniowym, a także opracowano wersje nieliniowe.
Istnieje cała literatura zajmująca się tym zagadnieniem z perspektywy „uczenia się jądra”. Niewiele o tym wiem, ale ten artykuł jest bardzo cytowany.

Biorąc pod uwagę, że twoje dane są tak wielowymiarowe (i prawdopodobnie rzadkie?), Możesz nie potrzebować niczego zbyt nieliniowego. Może analiza komponentów sąsiedztwa jest najlepszym miejscem do rozpoczęcia? Jest to najbliższe idei ważonej $L_2$ norma, jak zasugerowałeś w swoim pytaniu.

— David J. Harris
źródło

Tak, dane są rzadkie. Wygląda to niezwykle pomocne, dziękuję. Czy istnieje wariant analizy składników sąsiedztwa w przypadku macierzy

Q

$Q$ jest ograniczony do przekątnej (równoważnie

A

$A$ jest przekątna)? (Wygląda na to, że może to odpowiadać klasie miary podobieństwa wspomnianej w moim pytaniu powyżej).

— DW

Nie rozumiem, dlaczego nie mogłeś uwzględnić tego ograniczenia. Nie jestem jednak pewien, czy model wynikowy ma nazwę.

— David J. Harris,

Stawianie $a_i$ waga funkcji w podobieństwie jest równoważna, więc skalowanie zestawu danych o $1/w_i$ .

Innymi słowy, pytasz o wstępne przetwarzanie danych i skalowanie. Jest to zbyt szeroki zakres, aby można było na nie odpowiedzieć w jednym pytaniu. Szukać:

wybór funkcji
ważenie funkcji
normalizacja
redukcja wymiarowości
inne techniki projekcji
inne funkcje odległości
„nauka rangowania”

Istnieje ogromna ilość literatury, a nawet ścieżki konferencyjne poświęcone temu zagadnieniu. Niektóre metody na początek:

— Ma ZAKOŃCZENIE - Anony-Mus
źródło