Jesteś na dobrej drodze.
Kilka rzeczy od razu. Z definicji tych dwóch wskaźników wynika, że wynik IoU i F jest zawsze w granicach 2:
a także, że spotykają się one na skrajności jednego i zera w warunkach że można się spodziewać (idealne dopasowanie i całkowicie rozłączny).
fa/ 2≤Io U≤ F
Należy również zauważyć, że stosunek między nimi może być wyraźnie powiązany z IoU:
tak że stosunek ten zbliża się do 1/2, gdy oba wskaźniki zbliżają się do zera.
jao U/ F= 1 / 2 + Io U/ 2
Istnieje jednak silniejsze stwierdzenie, które można sformułować dla typowego zastosowania klasyfikacji jako uczenia maszynowego. W przypadku każdej ustalonej „podstawowej prawdy” te dwie metryki są zawsze dodatnio skorelowane. To znaczy, że jeśli klasyfikator A jest lepszy niż B w ramach jednej metryki, jest również lepszy niż klasyfikator B w ramach drugiej metryki.
Kuszące jest zatem stwierdzenie, że te dwie metryki są funkcjonalnie równoważne, więc wybór między nimi jest arbitralny, ale nie tak szybki! Problem pojawia się, gdy bierze się średni wynik z zestawu wniosków . Następnie pojawia się różnica przy określaniu, o ile gorszy jest klasyfikator B niż A w danym przypadku.
Zasadniczo metryka IoU ma tendencję do karania pojedynczych przypadków złej klasyfikacji bardziej niż ocena F pod względem ilościowym, nawet jeśli oboje mogą zgodzić się, że to jedno wystąpienie jest złe. Podobnie do tego, w jaki sposób L2 może karać największe błędy bardziej niż L1, metryka IoU ma tendencję do wywierania efektu „kwadratu” na błędy w stosunku do wyniku F. Tak więc wynik F ma tendencję do mierzenia czegoś bliższego średniej wydajności, podczas gdy wynik IoU mierzy coś bliższego wydajności najgorszego przypadku.
Załóżmy na przykład, że zdecydowana większość wnioskowania jest umiarkowanie lepsza z klasyfikatorem A niż B, ale niektóre z nich są znacznie gorsze przy użyciu klasyfikatora A. Może się zdarzyć, że metryka F faworyzuje klasyfikator A, podczas gdy metryka IoU faworyzuje klasyfikator B.
Oczywiście oba te wskaźniki są znacznie bardziej do siebie podobne niż różne. Ale obaj cierpią z powodu innej niekorzystnej sytuacji z punktu widzenia uśredniania tych wyników w porównaniu z wieloma wnioskami: obaj przeceniają znaczenie zbiorów z niewielkimi lub żadnymi rzeczywistymi zbiorami dodatnimi prawdy. W typowym przykładzie segmentacji obrazu, jeśli obraz ma tylko jeden piksel jakiejś wykrywalnej klasy, a klasyfikator wykrywa ten piksel i jeszcze jeden piksel, jego wynik F wynosi zaledwie 2/3, a IoU jest jeszcze gorszy przy 1 / 2) Trywialne błędy, takie jak te, mogą poważnie zdominować średni wynik uzyskany na zestawie zdjęć. Krótko mówiąc, waży każdy błąd pikseli odwrotnie proporcjonalnie do wielkości wybranego / odpowiedniego zestawu, zamiast traktować je jednakowo.
Istnieje o wiele prostsza metryka, która pozwala uniknąć tego problemu. Wystarczy użyć błędu całkowitego: FN + FP (np. 5% pikseli obrazu zostało błędnie skategoryzowanych). W przypadku, gdy jedno jest ważniejsze od drugiego, można zastosować średnią ważoną: FP + FN.do0do1