Bardzo często w polecającym mamy dane użytkownika, które mają etykietę np. „Kliknięcie”. Aby poznać model, potrzebuję danych dotyczących kliknięć i braku kliknięć.
Najprostszym podejściem do generowania jest pobranie par produktów użytkownika, których nie ma w danych kliknięć. Może to jednak wprowadzać w błąd. Przykład:
user1, product1 (click)
user2, product2 (click)
user2, product3 (click)
user3, product2 (click)
Mogę zabrać użytkownika 1 ze wszystkimi produktami oprócz produktu 1 i oznaczyć je jako „no_click” i tak dalej. Ale to może nie być prawda. Może użytkownik 1 kliknąłby produkt 2, gdyby pokazano mu produkt 2. Ale tylko dlatego, że pokazano mu inne zestawy produktów - nie miał okazji zdecydować się na kliknięcie / brak kliknięcia produktu2.
Jak więc rozwiązać problem pojedynczych danych?