AUC nie porównuje klas rzeczywistych z przewidywanymi. Nie patrzy na przewidywaną klasę, ale na wynik prognozy lub prawdopodobieństwo. Możesz dokonać prognozy klasy, stosując wartość odcięcia dla tego wyniku, powiedzmy, każda próbka, która uzyskała wynik poniżej 0,5, jest klasyfikowana jako negatywna. Ale ROC pojawia się wcześniej. Działa z wynikami / prawdopodobieństwami klasowymi.
Pobiera te wyniki i sortuje wszystkie próbki według tego wyniku. Teraz, gdy znajdziesz pozytywną próbkę, krzywa ROC robi krok w górę (wzdłuż osi y). Za każdym razem, gdy znajdziesz próbkę ujemną, przesuwasz się w prawo (wzdłuż osi x). Jeśli ten wynik jest inny dla dwóch klas, próbki pozytywne są pierwsze (zwykle). Oznacza to, że wykonujesz więcej kroków w górę niż w prawo. W dalszej części listy pojawią się próbki negatywne, więc przesuń się w lewo. Gdy przejrzysz całą listę próbek, osiągniesz współrzędną (1,1), która odpowiada 100% próbek dodatnich i 100% próbek ujemnych.
Jeśli wynik idealnie oddzieli wynik pozytywny od próbek ujemnych, przejdziesz od (x = 0, y = 0) do (1,0), a następnie stamtąd do (1, 1). Obszar pod krzywą wynosi 1.
Jeśli twój wynik ma taki sam rozkład dla próbek dodatnich i ujemnych, prawdopodobieństwo znalezienia próbki dodatniej lub ujemnej na posortowanej liście jest równe, a zatem prawdopodobieństwo przejścia w górę lub w lewo na krzywej ROC jest równe. Dlatego poruszasz się po przekątnej, ponieważ zasadniczo poruszasz się w górę i w lewo, w górę i w lewo, i tak dalej ... co daje wartość AROC około 0,5.
W przypadku niezrównoważonego zestawu danych wielkość kroku jest inna. Robisz więc mniejsze kroki w lewo (jeśli masz więcej próbek ujemnych). Dlatego wynik jest mniej więcej niezależny od nierównowagi.
Dzięki krzywej ROC możesz wizualizować sposób rozdzielania próbek, a obszar pod krzywą może być bardzo dobrym miernikiem do pomiaru wydajności algorytmu klasyfikacji binarnej lub dowolnej zmiennej, której można użyć do oddzielenia klas.
Rysunek pokazuje te same rozkłady dla różnych wielkości próbek. Czarny obszar pokazuje, gdzie można oczekiwać krzywych ROC losowych mieszanin próbek dodatnich i ujemnych.