Korzyści ze stosowania średniej do podsumowania tendencji centralnej oceny 5-punktowej
Jak wspomniał @gung, myślę, że często istnieją bardzo dobre powody, aby przyjmować średnią z pięciu punktów za wskaźnik tendencji centralnej. Przedstawiłem już tutaj te powody .
Parafrazować:
- średnia jest łatwa do obliczenia
- Średnia jest intuicyjna i dobrze zrozumiała
- Średnia to pojedyncza liczba
- Inne indeksy często dają podobne uporządkowanie rang obiektów
Dlaczego środek jest dobry dla Amazon
Pomyśl o celach Amazon w raportowaniu średniej. Mogą mieć na celu
- zapewniają intuicyjną i zrozumiałą ocenę produktu
- zapewnić akceptację systemu ocen przez użytkownika
- upewnij się, że ludzie rozumieją, co oznacza ocena, aby mogli ją odpowiednio wykorzystać do podejmowania decyzji o zakupie
Amazon zapewnia pewnego rodzaju zaokrągloną średnią, liczbę częstotliwości dla każdej opcji oceny oraz wielkość próby (tj. Liczbę ocen). Informacje te prawdopodobnie wystarczą, aby większość ludzi doceniła zarówno ogólne sentymenty do przedmiotu, jak i zaufanie do takiej oceny (tj. 4.5 z 20 ocenami jest bardziej prawdopodobne niż dokładność 4.5 z 2 ocenami; pozycja z 10 5 - oceny w gwiazdkach i jedna ocena w postaci 1 gwiazdki bez komentarzy mogą nadal być dobrym przedmiotem).
Możesz nawet postrzegać ten środek jako opcję demokratyczną. Wiele wyborów jest wybieranych na podstawie tego, który kandydat otrzymuje najwyższą średnią w skali dwupunktowej. Podobnie, jeśli weźmiesz argument, że każda osoba, która prześle recenzję, otrzyma głos, możesz zobaczyć środek jako formularz, który waży głos każdej osoby jednakowo.
Czy różnice w stosowaniu skali naprawdę stanowią problem?
W literaturze psychologicznej istnieje szeroki zakres uprzedzeń ratingowych (przegląd, patrz Saal i in. 1980), takich jak tendencyjność tendencji centralnej, łagodność łagodności, uprzedzenie surowości. Ponadto niektórzy oceniający będą bardziej arbitralni, a niektórzy bardziej wiarygodni. Niektórzy mogą nawet systematycznie kłamać, dając fałszywe pozytywne lub fałszywe negatywne recenzje. Spowoduje to powstanie różnych form błędu podczas próby obliczenia prawdziwej średniej oceny elementu.
Jeśli jednak pobrałbyś losową próbkę populacji, takie uprzedzenia by się zlikwidowały, a przy wystarczającej wielkości próby liczników nadal uzyskałbyś prawdziwą średnią.
Oczywiście, nie dostajesz losowej próbki na Amazon, i istnieje ryzyko, że konkretny zestaw wskaźników, które otrzymujesz za przedmiot, jest systematycznie tendencyjny, aby być bardziej łagodny lub surowy i tak dalej. To powiedziawszy, myślę, że użytkownicy Amazon doceniliby, że oceny przesłane przez użytkowników pochodzą z niedoskonałej próbki. Myślę również, że jest całkiem prawdopodobne, że przy rozsądnej wielkości próby, w wielu przypadkach większość różnic odchylenia odpowiedzi zacznie zanikać.
Możliwe postępy przekraczające średnią
Jeśli chodzi o poprawę dokładności oceny, nie kwestionowałbym ogólnej koncepcji średniej, ale raczej sądzę, że istnieją inne sposoby oszacowania prawdziwej średniej oceny populacji dla pozycji (tj. Średniej oceny, którą można uzyskać byli dużą reprezentatywną próbą proszoną o ocenę produktu).
- Mierniki masy oparte na ich wiarygodności
- Użyj bayesowskiego systemu ocen, który szacuje średnią ocenę jako ważoną sumę średniej oceny dla wszystkich pozycji i średniej z określonej pozycji, i zwiększaj wagę dla określonej pozycji wraz ze wzrostem liczby ocen
- Dostosuj informacje oceniającego w oparciu o ogólną tendencję do oceniania różnych przedmiotów (np. 5 od kogoś, kto zazwyczaj daje 3s, będzie warte więcej niż ktoś, kto zazwyczaj daje 4s).
Tak więc, jeśli dokładność oceny była głównym celem Amazon, myślę, że powinien postarać się zwiększyć liczbę ocen na przedmiot i zastosować niektóre z powyższych strategii. Takie podejście może być szczególnie istotne przy tworzeniu rankingów „najlepszych z”. Jednak w przypadku skromnej oceny na stronie może się okazać, że próbka oznacza, że lepiej spełnia cele prostoty i przejrzystości.
Bibliografia
- Saal, FE, Downey, RG i Lahey, MA (1980). Ocena ocen: Ocena psychometrycznej jakości danych ratingowych. Biuletyn psychologiczny, 88, 413.