Chcę nauczyć się (wydedukować) wagi atrybutów dla mojej miary niepodobieństwa, której mogę używać do grupowania.
Mam kilka przykładów par obiektów, które są „podobne” (powinny znajdować się w tej samej grupie), a także kilka przykładów par obiektów, które są „nie podobne” (nie powinny być w tej samej grupie). Każdy obiekt posiada szereg cech: jeśli chcesz, możemy myśleć o każdym obiekcie jako -wymiarowej wektora cech, gdzie każda funkcja jest nieujemną liczbą całkowitą. Czy istnieją techniki wykorzystania takich przykładów podobnych / niepodobnych obiektów do oszacowania na ich podstawie optymalnych wag cech dla miary odmienności?
Jeśli to pomoże, w mojej aplikacji prawdopodobnie rozsądne byłoby skoncentrowanie się na nauce miary odmienności, którą jest ważona norma L2:
gdzie wagi nie są znane i należy się ich nauczyć. (Lub może być uzasadniony jakiś rodzaj ważonej miary podobieństwa kosinusowego.) Czy istnieją dobre algorytmy do nauki wag dla takiej miary, biorąc pod uwagę przykłady? A może istnieją inne metody uczenia się miary podobieństwa / miary podobieństwa, które powinienem rozważyć?
Liczba wymiarów jest niestety bardzo duża (tysiące lub więcej; pochodzi ona z funkcji worka słów). Mam jednak kilkadziesiąt tysięcy przykładów. Następnie mam setki tysięcy obiektów, które chcę połączyć, dlatego ważne jest uogólnienie na podstawie przykładów, aby poznać dobrą metrykę podobieństwa.
Rozumiem, że wpada to w rubrykę częściowo nadzorowanego grupowania i wygląda na to, że może mieć charakter „dostosowujący podobieństwo”, ale nie byłem w stanie znaleźć jasnych opisów algorytmów, które mogłyby być użyte do tego celu.