Maszyny do faktoryzacji w terenie


Odpowiedzi:


2

Wygląda na to, że pytasz o ogólny opis. Jeśli odwołujesz się do slajdów połączonych ze slajdami Twojego oryginalnego postu, istnieje porównanie FM (slajd 11) i FFM (slajd 12).

Jako szybki przykład, jeśli uczysz się o użytkownikach i filmach, FM może mieć następujący czynnik:

w_{user_1}*w_{movie_1}*... + w{user_1}*w_{genre_1}*...

FFM miałby:

w_{user_1, movies}*w_{movie_1, users}*... + w{user_1, genres}*w_{genre_1, users}*...

Kluczową różnicą jest to, że w FM w_{user_1}współczynnik jest taki sam w obu kategoriach - istnieje jedno pojęcie użytkownika. W FFM uczysz się osobno w_{user_1}dla każdego kontekstu, np. Czy ma on związek z filmami czy gatunkami. Pamiętaj, że nie uczy się go osobno dla każdego filmu lub gatunku, ale ogólnie dla filmów i gatunków. Oznacza to, że osobno uczy kontekstu użytkownika dla każdego rodzaju interakcji.

Pamiętaj też, że w_{movie_1}poszedł do, w_{movie_1, users}ponieważ ten termin wchodzi w interakcję z w_{user_1}użytkownikiem.


2

Załóżmy (przed kodowaniem na gorąco), że masz predyktory / pola z zestawu (np. Gatunek filmu, płeć użytkownika i rasa użytkownika). Załóżmy ponadto, że każdy predyktor może przyjmować jedną z wartości . Po jednorazowym kodowaniu będziesz mieć nowy zestaw funkcji binarnych o rozmiarze .z Z k z X K : = z Z k zZzZkzXK:=zZkz

W modelu ze wszystkimi interakcjami należy oszacować macierz współczynników interakcji , która ma unikalne warunki.K × ( K + 1 ) / 2QK×(K+1)/2

Maszyna faktoryzacji umieszcza strukturę na macierzy i przyjmuje, że , gdzie ma wymiar , przy czym liczbą określoną przez użytkownika. Oszacować zamiast .Q W T W W l × K 1 l K W QQQWTWWl×K1lKWQ

Pole świadomy stawia maszynowe faktoryzacji struktura na , jak również. DzieliQQzqzi,zjzi,zjQqzi,zjzi,zjWjTWiWil×KWiQ

QK×lK×l×|Z|K×(K+1)/2


1

Standardowe maszyny do faktoryzacji mają również pola. „Nowością” tutaj wydaje się być wykorzystanie funkcji GBDT i zastosowanie sztuczek haszujących. Wygląda na to, że nie ma to wielkiego efektu: sprawdź zakres minut w wydajności na ostatnim slajdzie.


Zdaniem autorów model jest rzeczywiście świadomy pola charakterystycznego dla standardowej implementacji - jest to stwierdzone na forach kaggle. Po prostu nie byłem w stanie zrozumieć, co to znaczy i jaka była różnica.
B_Miner


Na podstawie slie 14 wygląda na to, że oparli swoje rozwiązanie na tym dokumencie ( Zespół filtrowania współpracującego i modeli inżynierii cech do przewidywania współczynnika klikalności ).
Emre
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.