Wskaźniki klasyfikacji / oceny dla wysoce niezrównoważonych danych


22

Mam do czynienia z problemem wykrywania oszustw (podobnym do punktacji kredytowej). W związku z tym istnieje wysoce niezrównoważony stosunek między fałszywymi i nieuczciwymi obserwacjami.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html zapewnia doskonały przegląd różnych wskaźników klasyfikacji. Precision and Recalllub kappaoba wydają się być dobrym wyborem:

Jednym ze sposobów uzasadnienia wyników takich klasyfikatorów jest porównanie ich z wynikami klasyfikatorów podstawowych i wykazanie, że są one rzeczywiście lepsze niż przewidywania losowe.

O ile rozumiem, kappamoże być tutaj nieco lepszy wybór, ponieważ brana jest pod uwagę przypadkowa szansa . Z kappa Cohena w prostym języku angielskim rozumiem, że kappadotyczy koncepcji zdobywania informacji:

[...] zaobserwowana dokładność na poziomie 80% jest znacznie mniej imponująca z oczekiwaną dokładnością na poziomie 75% w porównaniu z oczekiwaną dokładnością na poziomie 50% [...]

Dlatego moje pytania brzmiałyby:

  • Czy słusznie jest założyć, kappaże jest to lepsza miara klasyfikacji dla tego problemu?
  • Czy samo użycie kappazapobiega negatywnym skutkom braku równowagi na algorytmie klasyfikacji? Czy wymagane jest ponowne (zmniejszanie / zwiększanie) pobieranie próbek lub uczenie się oparte na kosztach (patrz http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?

próbkowanie danych w górę / w dół jest czymś, co powinieneś zrobić, gdy dane szkoleniowe są niezrównoważone i mogą czasem pomóc w zapobieganiu ignorowaniu przez klasyfikatory klas mniejszości. Niewłaściwe (i nieco oszukańcze) wykorzystywanie danych o ponownej próbce podczas oceny klasyfikatora - będziesz zgłaszać wydajność, której Twój klasyfikator nie osiąga, gdy zostanie zastosowany w próbce identycznie rozprowadzonej na oryginalnych danych testowych.
user48956

Odpowiedzi:


10

Tak, twoje założenia dotyczące Kappa wydają się słuszne. Kappa jako pojedyncze, skalarne miary jest głównie zaletą w stosunku do innych pojedynczych, skalarnych mierników, takich jak dokładność, które nie będą odzwierciedlać wydajności prognozowania mniejszych klas (w cieniu wydajności znacznie większej klasy). Jak zauważyłeś, Kappa rozwiązuje ten problem bardziej elegancko.

Użycie pomiaru, takiego jak Kappa, do pomiaru wydajności niekoniecznie zwiększy dopasowanie modelu do danych. Można zmierzyć wydajność dowolnego modelu przy użyciu wielu wskaźników, ale sposób dopasowania modelu do danych jest określany przy użyciu innych parametrów (np. Hiperparametrów). Możesz więc użyć np. Kappa do wybrania najlepiej dopasowanego typu modelu i hiperparametryzacji spośród wielu opcji dla swojego bardzo niezrównoważonego problemu - ale samo obliczenie Kappa nie zmieni sposobu, w jaki model pasuje do niezrównoważonych danych.

Dla różnych wskaźników: oprócz Kappa i precyzji / przywołania, spójrz także na prawdziwe dodatnie i prawdziwe ujemne wskaźniki TPR / TNR oraz krzywe ROC i pole pod krzywą AUC. Które z nich są przydatne w twoim problemie, będą zależeć głównie od szczegółów twojego celu. Na przykład różne informacje odzwierciedlone w TPR / TNR i precyzji / przywołaniu: czy Twoim celem jest wysoki odsetek oszustw faktycznie wykrytych jako taki i wysoki odsetek legalnych transakcji jako takich i / lub minimalizacja udziału fałszywych alarmów (które naturalnie dostaniesz „masowo” z takimi problemami) we wszystkich alarmach?

W przypadku próbkowania w górę / w dół: myślę, że nie ma kanonicznej odpowiedzi na „jeśli są one wymagane”. Są bardziej jednym ze sposobów na dostosowanie twojego problemu. Technicznie: tak, możesz ich używać, ale używaj ich ostrożnie, szczególnie upsamplowania (możesz w końcu stworzyć nierealne próbki, nie zauważając tego) - i pamiętaj, że zmiana częstotliwości próbek obu klas na coś nierealnego „na wolności” „może mieć również negatywny wpływ na wydajność prognozowania. Przynajmniej końcowy, trzymany zestaw testowy powinien ponownie odzwierciedlać rzeczywistą częstotliwość próbek. Konkluzja: Widziałem oba przypadki, w których wykonanie próbkowania w górę lub w dół nie przyniosło lepszych wyników końcowych, więc jest to coś, co może być konieczne do wypróbowania (ale nie manipuluj zestawem testowym!) .


Ale czy podejście oparte na kosztach, takie jak DOI 10.1109 / ICMLA.2014.48, jest bardziej odpowiednie, ponieważ brany jest pod uwagę ogólny wpływ na działalność?
Georg Heiler,

15

T.P.faP.faN.

  • Wynik F1 , który jest średnią harmoniczną z precyzją i wycofania .
  • G-miara , która jest średnią geometryczną z precyzją i wycofania . W porównaniu z F1 okazało się, że jest trochę lepiej w przypadku niezrównoważonych danych.
  • T.P./(T.P.+faP.+faN.)

Uwaga: w przypadku niezbilansowanych zestawów danych najlepiej jest uśrednić makro metryki .


1
Co rozumiesz przez „lepszy”, odnosząc się do miary G i indeksu Jaccard?
Narfanar

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.