Czy powinienem podejmować decyzje w oparciu o miary uśrednione w skali mikro lub średnio?

Przeprowadziłem 10-krotną weryfikację krzyżową różnych algorytmów klasyfikacji binarnej, z tym samym zestawem danych, i otrzymałem uśrednione wyniki Mikro- i Makro. Należy wspomnieć, że był to problem klasyfikacji wielu marek.

W moim przypadku prawdziwe negatywy i prawdziwe pozytywy są ważone jednakowo. Oznacza to, że prawidłowe przewidywanie prawdziwych negatywów jest równie ważne, jak prawidłowe przewidywanie prawdziwych pozytywów.

Miary uśrednione mikro są niższe niż miary uśrednione makro. Oto wyniki sieci neuronowej i maszyny wektorowej wsparcia:

wprowadź opis zdjęcia tutaj

Przeprowadziłem również test podziału procentowego dla tego samego zestawu danych z innym algorytmem. Wyniki były następujące:

wprowadź opis zdjęcia tutaj

Wolałbym porównać test podziału procentowego z wynikami uśrednionymi na poziomie makro, ale czy to uczciwe? Nie wierzę, że wyniki uśrednione na poziomie makro są tendencyjne, ponieważ prawdziwie pozytywne i prawdziwe negatywy są równo ważone, ale z drugiej strony zastanawiam się, czy to to samo, co porównywanie jabłek z pomarańczami?

AKTUALIZACJA

Na podstawie komentarzy pokażę, w jaki sposób obliczane są średnie mikro i makro.

Mam 144 etykiety (takie same jak cechy lub atrybuty), które chcę przewidzieć. Precyzja, przywołanie i pomiar F są obliczane dla każdej etykiety.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

Biorąc pod uwagę binarną miarę oceny B (tp, tn, fp, fn), która jest obliczana na podstawie prawdziwie pozytywnych (tp), prawdziwych negatywnych (tn), fałszywie pozytywnych (fp) i fałszywych negatywnych (fn). Średnie makro i mikro dla określonej miary można obliczyć w następujący sposób:

wprowadź opis zdjęcia tutaj

Za pomocą tych wzorów możemy obliczyć średnie mikro i makro w następujący sposób:

wprowadź opis zdjęcia tutaj

Tak więc miary uśrednione mikro dodają wszystkie tp, fp i fn (dla każdej etykiety), po czym następuje nowa ocena binarna. Miary uśrednione w makrze dodają wszystkie miary (Precyzja, Przywołanie lub Miara F) i dzielą się z liczbą etykiet, co bardziej przypomina średnią.

Pytanie brzmi, którego użyć?

machine-learning cross-validation

— Kenci
źródło

Kiedy pytasz, którego użyć, jakie jest zamierzone zastosowanie? Wybierając pomiędzy dwiema metodami, podsumowując wyniki, czy coś innego?

— Sean Easter,

Zamierzonym zastosowaniem jest ustalenie, który model jest najlepszy, i powiedzenie czegoś o jego wydajności. Dowiedziałem się, że pomiary mikro są lepsze według: Formana, George'a i Martina Scholza. „Jabłka-jabłka w badaniach krzyżowej walidacji: pułapki w pomiarze wydajności klasyfikatora”. ACM SIGKDD Explorations Newsletter 12.1 (2010): 49–57.

— Kenci

@Kenci, uważam, że powinieneś opublikować to jako odpowiedź na swoje pytanie i potwierdzić, że jest to odpowiednia odpowiedź. Dzięki za referencje!

— fnl

FYI Micro vs ważony wynik F1

— Franck Dernoncourt

Jeśli uważasz, że wszystkie etykiety są mniej więcej jednakowej wielkości (mają mniej więcej taką samą liczbę wystąpień), użyj dowolnej.

Jeśli uważasz, że istnieją etykiety z większą liczbą instancji niż inne i jeśli chcesz skierować swoje dane w stronę najbardziej zaludnionych, użyj micromedia .

Jeśli uważasz, że istnieją etykiety z większą liczbą wystąpień niż inne i jeśli chcesz przesunąć swoje dane w kierunku najmniej zaludnionych (lub przynajmniej nie chcesz stronić w kierunku najbardziej zaludnionych), skorzystaj z macromedia .

Jeśli wynik mikromedii jest znacznie niższy niż wynik makromedii, oznacza to, że masz poważne błędne klasyfikacje w najbardziej zaludnionych etykietach, podczas gdy twoje mniejsze etykiety są prawdopodobnie poprawnie sklasyfikowane. Jeśli wynik dla makromedii jest znacznie niższy niż wynik dla micromedii, oznacza to, że twoje mniejsze etykiety są źle sklasyfikowane, podczas gdy większe są prawdopodobnie poprawnie sklasyfikowane.

Jeśli nie masz pewności, co robić, kontynuuj porównania zarówno na mikro, jak i na średnim poziomie :)

To dobry artykuł na ten temat.

— felipeduque
źródło