Przeprowadziłem 10-krotną weryfikację krzyżową różnych algorytmów klasyfikacji binarnej, z tym samym zestawem danych, i otrzymałem uśrednione wyniki Mikro- i Makro. Należy wspomnieć, że był to problem klasyfikacji wielu marek.
W moim przypadku prawdziwe negatywy i prawdziwe pozytywy są ważone jednakowo. Oznacza to, że prawidłowe przewidywanie prawdziwych negatywów jest równie ważne, jak prawidłowe przewidywanie prawdziwych pozytywów.
Miary uśrednione mikro są niższe niż miary uśrednione makro. Oto wyniki sieci neuronowej i maszyny wektorowej wsparcia:
Przeprowadziłem również test podziału procentowego dla tego samego zestawu danych z innym algorytmem. Wyniki były następujące:
Wolałbym porównać test podziału procentowego z wynikami uśrednionymi na poziomie makro, ale czy to uczciwe? Nie wierzę, że wyniki uśrednione na poziomie makro są tendencyjne, ponieważ prawdziwie pozytywne i prawdziwe negatywy są równo ważone, ale z drugiej strony zastanawiam się, czy to to samo, co porównywanie jabłek z pomarańczami?
AKTUALIZACJA
Na podstawie komentarzy pokażę, w jaki sposób obliczane są średnie mikro i makro.
Mam 144 etykiety (takie same jak cechy lub atrybuty), które chcę przewidzieć. Precyzja, przywołanie i pomiar F są obliczane dla każdej etykiety.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Biorąc pod uwagę binarną miarę oceny B (tp, tn, fp, fn), która jest obliczana na podstawie prawdziwie pozytywnych (tp), prawdziwych negatywnych (tn), fałszywie pozytywnych (fp) i fałszywych negatywnych (fn). Średnie makro i mikro dla określonej miary można obliczyć w następujący sposób:
Za pomocą tych wzorów możemy obliczyć średnie mikro i makro w następujący sposób:
Tak więc miary uśrednione mikro dodają wszystkie tp, fp i fn (dla każdej etykiety), po czym następuje nowa ocena binarna. Miary uśrednione w makrze dodają wszystkie miary (Precyzja, Przywołanie lub Miara F) i dzielą się z liczbą etykiet, co bardziej przypomina średnią.
Pytanie brzmi, którego użyć?