Zestawy danych porównawczych do wspólnego filtrowania

9

Chciałbym przetestować nowy algorytm wspólnego filtrowania . Typowym przypadkiem użycia jest polecanie filmów na podstawie preferencji użytkowników podobnych do konkretnego użytkownika.

Jakie są typowe zestawy danych porównawczych, których naukowcy często używają do testowania swoich algorytmów? Wiem, że w ramach Computer Vision ludzie często używają MNIST lub CIFAR, ale nie znalazłem podobnych zestawów danych do wspólnego filtrowania.

dataset recommender-system

— pir
źródło

1

Czy spojrzałeś na zestaw nagród Netflix? Tak, konkurencja już dawno się zakończyła i została usunięta z oficjalnej strony z powodów związanych z prywatnością. Nadal możesz spróbować znaleźć go w innych lokalizacjach.

— Vladislavs Dovgalecs

Kaggle.com ma sporo. Wystarczy wyszukać „zalecenie w: zbiór danych” lub „zalecenie w: konkurs”.

— ran8

8

Oczywistą odpowiedzią byłby zestaw nagród Netflix, jest wiele badań i większość algorytmów CF ma w nim oceny.

Istnieją inne dostępne zestawy danych, które są zwykle używane jako punkty odniesienia:

Obiektyw filmowy Zestaw danych : zestaw danych o wartości 20 milionów ocen używany do testowania algorytmów CF;
Jester Dataset : zestaw danych rekomendacji żartów z ponad 6 milionami ocen;
W tym łączu można znaleźć wiele innych zestawów danych

— João Almeida
źródło

1

Mam repozytorium, które może ci pomóc.

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/

— Arthur Fortes
źródło

3

Nie publikuj odpowiedzi zawierających tylko linki, odpowiedzi powinny być samodzielne. Zalecam edycję odpowiedzi, aby dodać co najmniej kilka informacji zawartych w linku, a następnie podać link do dalszych badań.

— Mephy