Jak powiedział Karl Broman w swojej odpowiedzi, podejście bayesowskie byłoby prawdopodobnie znacznie lepsze niż stosowanie przedziałów ufności.
Problem z przedziałami ufności
Dlaczego stosowanie przedziałów ufności może nie działać zbyt dobrze? Jednym z powodów jest to, że jeśli nie masz wielu ocen przedmiotu, przedział ufności będzie bardzo szeroki, więc dolna granica przedziału ufności będzie niewielka. W związku z tym elementy bez wielu ocen znajdą się na dole listy.
Intuicyjnie jednak prawdopodobnie chcesz, aby przedmioty bez wielu ocen znajdowały się w pobliżu przeciętnego przedmiotu, więc chcesz przesunąć swoją szacunkową ocenę przedmiotu w stronę średniej oceny nad wszystkimi przedmiotami (tj. Chcesz przesunąć swoją szacunkową ocenę w kierunku wcześniejszego ) . To właśnie robi podejście bayesowskie.
Podejście Bayesa I: rozkład normalny w stosunku do ocen
Jednym ze sposobów przesunięcia oceny szacunkowej w stronę a priori jest, jak w odpowiedzi Karla, użycie oszacowania postaci :w∗R+(1−w)∗C
- R to średnia ponad ocen dla przedmiotów.
- C oznacza średnią dla wszystkich pozycji (lub cokolwiek wcześniej, do którego chcesz zmniejszyć swoją ocenę).
- Należy zauważyć, że wzór jest tylko ważone połączenie i .RC
- w=vv+m to waga przypisana do , gdzie to liczba recenzji piwa, a to pewnego rodzaju stały parametr „progowy”.Rvm
- Zauważ, że gdy jest bardzo duża, to znaczy, gdy mamy dużo ocen dla bieżącego elementu, a następnie jest bardzo zbliżona do 1, więc nasz szacunkowa ocena jest bardzo zbliżony do i płacimy mało uwagi do wcześniejszej . Gdy jest niewielka, jednak jest bardzo zbliżony do 0, więc szacowana ocena kładzie dużo masy na uprzedniej .vwRCvwC
Oszacowanie to można w rzeczywistości interpretować bayesowską jako późniejszą ocenę średniej oceny przedmiotu, gdy poszczególne oceny pochodzą z normalnego rozkładu skupionego wokół tej średniej.
Jednak przy założeniu, że oceny pochodzą z rozkładu normalnego, występują dwa problemy:
- Rozkład normalny jest ciągły , ale oceny są dyskretne .
- Oceny produktu niekoniecznie muszą mieć niejednoznaczny kształt Gaussa. Na przykład, może twój przedmiot jest bardzo polaryzujący, więc ludzie albo oceniają go bardzo wysoko, albo bardzo słabo.
Podejście Bayesa II: rozkład wielomianowy ponad oceny
Zamiast więc zakładać normalny rozkład ocen, załóżmy rozkład wielomianowy . To znaczy, biorąc pod uwagę jakiś konkretny przedmiot, istnieje prawdopodobieństwo że losowy użytkownik da mu 1 gwiazdkę, prawdopodobieństwo że losowy użytkownik da mu 2 gwiazdki i tak dalej.p 2p1p2
Oczywiście nie mamy pojęcia, jakie są te prawdopodobieństwa. W miarę uzyskiwania coraz większej liczby ocen tego elementu możemy zgadywać, że jest zbliżony do , gdzie to liczba użytkowników, którzy przyznali mu 1 gwiazdkę, a to całkowita liczba użytkowników, którzy ocenili przedmiot, ale kiedy zaczynamy od początku, nie mamy nic. Dlatego umieszczamy Dirichlet przed na tych prawdopodobieństwach.n 1p1 n1nDir(α1,…,αk)n1nn1n Dir(α1,…,αk)
Czym jest ten Dirichlet wcześniej? Możemy myśleć o każdym parametr jako bycie „wirtualny count” od tego, ile razy człowiek dał jakiś wirtualny przedmiot gwiazd. Na przykład, jeśli , , a wszystkie pozostałe są równe 0, to możemy myśleć o tym, mówiąc, że dwie wirtualne osoby dały 1 gwiazdkę, a jedna wirtualna osoba dała 2 gwiazdy. Tak więc, zanim pozyskamy rzeczywistych użytkowników, możemy użyć tej wirtualnej dystrybucji, aby oszacować ocenę produktu. i α 1 = 2 α 2 = 1 α iαiiα1=2α2=1αi
[Jednym ze sposobów wyboru parametrów byłoby ustawienie równego ogólnej proporcji głosów w gwiazdkach . (Zauważ, że parametry są liczbami całkowitymi.)]α i i α iαiαiiαi
Następnie, gdy pojawią się rzeczywiste oceny, po prostu dodaj ich liczby do wirtualnej liczby swoich Dirichlet wcześniej. Ilekroć chcesz oszacować ocenę swojego przedmiotu, po prostu weź średnią wszystkich ocen przedmiotu (zarówno jego ocen wirtualnych, jak i rzeczywistych).