Niedawno musiałem wybrać metrykę do oceny algorytmów rankingowych na wielu etykietach i doszedłem do tego tematu, co było bardzo pomocne. Oto kilka dodatków do odpowiedzi stpk, które były pomocne przy dokonywaniu wyboru.
- MAP można przystosować do problemów związanych z wieloma etykietami, kosztem przybliżenia
- MAP nie trzeba obliczać przy k, ale wersja wielopłaszczyznowa może nie zostać dostosowana, gdy klasa negatywna jest przeważająca
- MAP i (N) DCG można przepisać jako średnią ważoną wartości trafności w rankingu
Detale
Skupmy się na średniej precyzji (AP), ponieważ średnia średnia precyzja (MAP) to tylko średnia AP na kilka zapytań. AP jest poprawnie zdefiniowane na danych binarnych jako obszar pod krzywą dokładnego przywołania, który może być przepisany jako średnia dokładności dla każdej dodatniej pozycji. (patrz artykuł w Wikipedii na temat MAP ) Możliwym przybliżeniem jest zdefiniowanie go jako średniej dokładności dla każdego z nichpozycja. Niestety tracimy niezłą właściwość, że negatywne przykłady umieszczone na końcu listy nie mają wpływu na wartość AP. (Jest to szczególnie smutne, jeśli chodzi o ocenę wyszukiwarki, która zawiera znacznie więcej negatywnych przykładów niż pozytywnych przykładów. Możliwym obejściem jest podpróbowanie negatywnych przykładów kosztem innych wad, np. Zapytania zawierające więcej pozytywnych pozycji staną się jednakowo trudne do zapytania z kilkoma pozytywnymi przykładami).
Z drugiej strony, to przybliżenie ma dobrą właściwość, którą dobrze uogólnia na przypadek wielopłaszczyznowy. Rzeczywiście, w przypadku binarnym precyzję w pozycji k można również interpretować jako średnią istotność przed pozycją k, gdzie trafność pozytywnego przykładu wynosi 1, a trafność negatywnego przykładu wynosi 0. Ta definicja rozciąga się całkiem naturalnie na przypadek, w którym istnieją więcej niż dwa różne poziomy istotności. W tym przypadku AP można również zdefiniować jako średnią średnich trafności dla każdej pozycji.
k
wAPk=1Klog(Kk)
K
wDCGk=1log(k+1)
Z tych dwóch wyrażeń możemy wywnioskować, że - AP waży dokumenty od 1 do 0. - DCG waży dokumenty niezależnie od całkowitej liczby dokumentów.
W obu przypadkach, jeśli istnieje znacznie więcej nieistotnych przykładów niż odpowiednie przykłady, całkowita waga pozytywu może być nieistotna. W przypadku AP obejściem tego problemu jest podpróbkowanie próbek ujemnych, ale nie jestem pewien, jak wybrać proporcję podpróbkowania, a także czy uzależnić ją od zapytania lub liczby pozytywnych dokumentów. W przypadku DCG możemy to wyciąć o k, ale pojawiają się te same pytania.
Z przyjemnością usłyszę o tym więcej, jeśli ktoś tutaj będzie pracował na ten temat.