Czy mój model jest dobry na podstawie wartości metryki diagnostycznej ( / AUC / dokładność / RMSE itp.)?


12

Dopasowałem swój model i staram się zrozumieć, czy jest on dobry. Obliczyłem zalecane miary, aby je ocenić ( / AUC / dokładność / błąd prognozowania itp.), Ale nie wiem, jak je interpretować. Krótko mówiąc, jak stwierdzić, czy mój model jest dobry na podstawie danych? Czy 0,6 (na przykład) wystarcza, abym mógł wyciągać wnioski lub podejmować decyzje naukowe / biznesowe?R2R2


To pytanie jest celowo szerokie i obejmuje szeroki zakres sytuacji, w których członkowie często się spotykają; takie pytania można zamknąć jako duplikaty tego pytania. Mile widziane są zmiany mające na celu rozszerzenie zakresu poza wymienione tutaj metryki, a także dodatkowe odpowiedzi - szczególnie te, które oferują wgląd w inne klasy metryk.


1
Powiązane: Jak się dowiedzieć, że twój problem uczenia maszynowego jest beznadziejny? Jak w „Mam , czy to oznacza, że ​​nie mogę tego dalej poprawiać?” R2=0.6
Stephan Kolassa

2
Linia bazowa dla lub innego używanego miernika? Przejście od do może być niesamowitym skokiem wydajności w niektórych aplikacjach. Właśnie tak działają wszystkie rozsądne publikacje. Mamy zaproponowany model, mamy szereg dobrze przyjętych wskaźników, mamy wiedzę na temat „najnowocześniejszych” i porównujemy wydajność. I w ten sposób wiemy, czy nasz model jest dobry . R 2 = 0,03 R 2 = 0,05R2R2=0.03R2=0.05
usεr11852

Odpowiedzi:


18

Ta odpowiedź skupi się głównie na , ale większość tej logiki obejmuje inne wskaźniki, takie jak AUC i tak dalej.R2

Czytelnicy CrossValidated prawie na pewno nie odpowiedzą na to pytanie. Nie ma kontekstowego sposobu, aby zdecydować, czy wskaźniki modelu, takie jak są dobre, czy nieR2 . W skrajnościach zazwyczaj możliwe jest uzyskanie konsensusu od wielu różnych ekspertów: wynoszące prawie 1 ogólnie oznacza dobry model, a bliskie 0 oznacza straszny. Pomiędzy leży zakres, w którym oceny są z natury subiektywne. W tym zakresie odpowiedź na pytanie, czy dane modelu są dobre, wymaga nie tylko wiedzy statystycznej. Wymaga dodatkowej wiedzy specjalistycznej w Twojej dziedzinie, której czytelnicy CrossValidated prawdopodobnie nie mają.R2

Dlaczego to? Pozwól mi zilustrować przykładem z własnego doświadczenia (drobne szczegóły zmienione).

Robiłem eksperymenty laboratoryjne z mikrobiologii. Ustawiałbym kolby komórek na różnych poziomach stężenia składników odżywczych i mierzyłbym wzrost gęstości komórek (tj. Nachylenie gęstości komórek w funkcji czasu, choć ten szczegół nie jest ważny). Kiedy następnie modelowałem ten związek wzrostu / składników odżywczych, często wartości > 0,90.R2

Jestem teraz naukowcem środowiska. Pracuję z zestawami danych zawierającymi pomiary z natury. Gdybym spróbował dopasować dokładnie ten sam model opisany powyżej do tych „polowych” zestawów danych, byłbym zaskoczony, gdybym był tak wysoki jak 0,4.R2

Te dwa przypadki dotyczą dokładnie tych samych parametrów, z bardzo podobnymi metodami pomiaru, modelami zapisanymi i dopasowanymi przy użyciu tych samych procedur - a nawet ta sama osoba wykonuje dopasowanie! Ale w jednym przypadku wynoszące 0,7 byłoby niepokojąco niskie, aw drugim byłoby podejrzanie wysokie.R2

Ponadto wykonalibyśmy pomiary chemiczne obok pomiarów biologicznych. Modele standardowych krzywych chemicznych miałyby około 0,99, a wartość 0,90 byłaby niepokojąco niska .R2


Co prowadzi do tak dużych różnic w oczekiwaniach? Kontekst. Ten niejasny termin obejmuje rozległy obszar, więc pozwól mi spróbować podzielić go na kilka bardziej szczegółowych czynników (jest to prawdopodobnie niekompletne):

1. Jaka jest wypłata / konsekwencja / wniosek?

To tutaj charakter twojego pola będzie prawdopodobnie najważniejszy. Jakkolwiek cenna, jak sądzę, jest moja praca, podwyższenie mojego modelu o 0,1 lub 0,2 nie zrewolucjonizuje świata. Ale są zastosowania, w których ogrom zmian byłby ogromną sprawą! Znacznie mniejsza poprawa w modelu prognozy akcji może oznaczać dziesiątki milionów dolarów dla firmy, która go rozwija.R2

Jest to jeszcze łatwiejsze do zilustrowania dla klasyfikatorów, więc zamierzam zmienić dyskusję o metrykach z na dokładność w poniższym przykładzie (ignorując na razie słabość metryki dokładności ). Pomyśl o dziwnym i lukratywnym świecie seksu z kurczakiem . Po latach treningu człowiek może szybko odróżnić pisklę od samca i samicy w wieku zaledwie 1 dnia. Samce i samice są karmione w różny sposób, aby zoptymalizować produkcję mięsa i jaj, więc wysoka dokładność pozwala zaoszczędzić ogromne kwoty przy niewłaściwej inwestycji w miliardyR2ptaków. Jeszcze kilkadziesiąt lat temu w Stanach Zjednoczonych uważano, że dokładność wynosząca około 85% jest wysoka. Czy wartość osiągnięcia najwyższej dokładności wynosi obecnie około 99%? Wynagrodzenie, które najwyraźniej może wynosić od 60 000 do prawdopodobnie 180 000 dolarów rocznie (w oparciu o szybki przegląd Google). Ponieważ ludzie wciąż mają ograniczoną szybkość, z jaką pracują, algorytmy uczenia maszynowego, które mogą osiągnąć podobną dokładność, ale pozwalają na szybsze sortowanie, mogą być warte miliony.

(Mam nadzieję, że podoba ci się ten przykład - alternatywą była przygnębiająca bardzo podejrzana algorytmiczna identyfikacja terrorystów).

2. Jak silny jest wpływ niemodelowanych czynników w twoim systemie?

W wielu eksperymentach masz luksus izolowania systemu od wszystkich innych czynników, które mogą na niego wpływać (w końcu to częściowo cel eksperymentu). Natura jest bardziej chaotyczna. Kontynuując poprzedni przykład mikrobiologii: komórki rosną, gdy są dostępne składniki odżywcze, ale wpływają na nie także inne rzeczy - jak gorąco, ile drapieżników je jeść, czy w wodzie są toksyny. Wszystkie te związki zawierają składniki odżywcze i ze sobą w złożony sposób. Każdy z tych innych czynników powoduje zmiany w danych, które nie są rejestrowane przez Twój model. Substancje odżywcze mogą być nieistotne w wariacji prowadzenia pojazdu w stosunku do innych czynników, a więc jeśli wykluczę te inne czynniki, mój model moich danych terenowych będzie musiał mieć niższą wartość .R2

3. Jak dokładne i dokładne są twoje pomiary?

Pomiar stężenia komórek i substancji chemicznych może być niezwykle precyzyjny i dokładny. Mierzenie (na przykład) stanu emocjonalnego społeczności w oparciu o trendy hashtagów na Twitterze może być… mniej. Jeśli nie możesz być precyzyjny w swoich pomiarach, jest mało prawdopodobne, aby Twój model kiedykolwiek osiągnął wysoką wartość . Jak dokładne są pomiary w twoim polu? Prawdopodobnie nie wiemy.R2

4. Złożoność i uogólnienie modelu

Jeśli dodasz do modelu więcej czynników, nawet losowych, średnio zwiększysz model (skorygowane częściowo rozwiązuje ten problem). To jest zbyt dobre . Model dopasowania nie uogólnia się dobrze na nowe dane, tj. Będzie miał wyższy błąd prognozowania niż oczekiwano na podstawie dopasowania do oryginalnego (szkoleniowego) zestawu danych. Wynika to z tego, że pasuje do szumu w oryginalnym zestawie danych. Jest to częściowo spowodowane tym, że modele są karane za złożoność procedur wyboru modelu lub poddawane regularyzacji.R2R2

Jeśli przeuczenie zostanie zignorowane lub nie uda mu się skutecznie zapobiec, oszacowane będzie tendencyjne w górę, tj. Wyższe niż powinno być. Innymi słowy, twoja wartość może dać ci mylące wrażenie wydajności twojego modelu, jeśli jest on nadmierny.R2R2

IMO, nadmierne dopasowanie jest zaskakująco powszechne w wielu dziedzinach. Jak najlepiej tego uniknąć, to skomplikowany temat. Jeśli jesteś zainteresowany , polecam przeczytanie o procedurach regularyzacji i wyborze modelu na tej stronie.

5. Zakres danych i ekstrapolacja

Czy Twój zestaw danych obejmuje znaczną część zakresu wartości X, którymi jesteś zainteresowany? Dodanie nowych punktów danych poza istniejącym zakresem danych może mieć duży wpływ na szacowany , ponieważ jest to metryka oparta na wariancji w X i Y.R2

Poza tym, jeśli dopasujesz model do zestawu danych i będziesz musiał przewidzieć wartość poza zakresem X tego zbioru danych (tj. Ekstrapolować ), możesz stwierdzić, że jego wydajność jest niższa niż się spodziewasz. Wynika to z faktu, że oszacowany przez Ciebie związek może się zmienić poza dopasowanym zakresem danych. Na poniższym rysunku, jeśli wykonałeś pomiary tylko w zakresie wskazanym przez zielone pole, możesz sobie wyobrazić, że prosta linia (na czerwono) dobrze opisuje dane. Ale jeśli spróbujesz przewidzieć wartość poza tym zakresem za pomocą tej czerwonej linii, byłbyś całkiem niepoprawny.

wprowadź opis zdjęcia tutaj

[Rysunek jest zredagowaną wersją tego , znalezioną przez szybkie wyszukiwanie w Google „Krzywa Monod”.]

6. Metryki dają tylko fragment obrazu

Nie jest to tak naprawdę krytyka wskaźników - są to streszczenia , co oznacza, że ​​odrzucają również informacje zgodnie z projektem. Ale to oznacza, że ​​każda pojedyncza metryka pomija informacje, które mogą być kluczowe dla jej interpretacji. Dobra analiza uwzględnia więcej niż jedną metrykę.


Sugestie, poprawki i inne opinie mile widziane. I oczywiście także inne odpowiedzi.


3
Jedną z rzeczy, które należy dodać do tego doskonałego posta, jest to, że polega na porównaniu wyjaśnionej i niewyjaśnionej wariancji. Niska może wskazywać na problemy z modelem, ale może również wskazywać, że jakakolwiek dostępna zmienna predykcyjna nie wyjaśnia tak naprawdę dużej zmienności danych. W tym drugim przypadku model może być zły w pewnym „absolutnym” sensie, takim jak dokładność predykcyjna, ale dobry w tym sensie, że nie ma nic lepszego, przynajmniej nie przy dostępnych danych. R 2R2R2
Lewian

@Lewian Dziękujemy za opinię. Myślałem, że omówiłem to w punktach 2 i 3, ale widzę, że można to poprawić. Zastanowię się, jak wyjaśnić tę kwestię.
mkt - Przywróć Monikę

1
Tak, myślałem o tym, czy to już jest objęte. Problem z 2 i 3 polega na tym, że podają konkretne powody, dla których tak się może stać, jednak jest to problem ogólny.
Lewian

@Lewian zgodził się, zastanowię się.
mkt - Przywróć Monikę

2

Ten problem pojawia się w mojej dziedzinie hydrologii podczas oceny, jak dobrze modele przewidują przepływ strumieni na podstawie opadów deszczu i danych klimatycznych. Niektórzy badacze ( Chiew i McMahon, 1993 ) przebadali 93 hydrologów (63 odpowiedzieli), aby dowiedzieć się, jakie wykresy diagnostyczne i statystyki dobroci dopasowania zastosowali, które były najważniejsze, i jak wykorzystano je do klasyfikacji jakości dopasowania modelu . Wyniki są obecnie datowane, ale podejście może nadal być interesujące. Zaprezentowali wyniki modelowych dopasowań różnych jakości i poprosili hydrologów o sklasyfikowanie ich w 4 kategoriach (1) całkowicie akceptowalnym wyniku; (2) akceptowalne, ale z zastrzeżeniem; (3) niedopuszczalne, używaj tylko wtedy, gdy nie ma innej alternatywy; i (4) nigdy nie używaj pod żadnym warunkiem.

Najważniejszymi wykresami diagnostycznymi były wykresy szeregów czasowych i wykresy rozproszenia symulowanych i zarejestrowanych przepływów z danych użytych do kalibracji. Preferowaną zaletą statystyki dopasowania były współczynnik R-kwadrat i Nash-Sutcliffe'a (E). Na przykład wyniki uznano za akceptowalne, jeśli E => 0,8

Istnieją inne przykłady w literaturze. Podczas oceny modelu ekosystemu na Morzu Północnym zastosowano następującą kategoryzację: E> 0,65 celowany, 0,5 do 0,65 bardzo dobry, 0,2 do 0,5 jako dobry, a <0,2 jako zły ( Allen i in., 2007 ).

Moriasi i in., (2015) zapewnia tabele dopuszczalnych wartości metryk dla różnych typów modeli.

Podsumowałem te informacje i referencje w poście na blogu .

Allen, J., P. Somerfield i F. Gilbert (2007), Niepewność ilościowa w wysokiej rozdzielczości sprzężonych modelach ekosystemów hydrodynamicznych, J. Mar. Syst., 64 (1–4), 3–14, doi: 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. i Daggupati, P. (2015) Modele hydrologiczne i jakości wody: miary wydajności i kryteria oceny Transakcje ASABE (American Society of Agriculture and Biological Engineers) 58 (6): 1763–1785


0

Żeby dodać powyższe świetne odpowiedzi - z mojego doświadczenia wynika, że ​​wskaźniki oceny i narzędzia diagnostyczne są równie dobre i uczciwe, jak osoba, która ich używa. Oznacza to, że jeśli rozumiesz matematykę za nimi, prawdopodobnie możesz sztucznie je zwiększyć, aby Twój model wyglądał lepiej, bez zwiększania jego rzeczywistej użyteczności.

R2=0.03R2=0.05

Skrócę tę odpowiedź, ponieważ powyższe wykonują świetną robotę, udzielając wyjaśnień / referencji. Chciałem tylko dodać trochę perspektywy do sekcji 6. Metryki dają tylko fragment obrazu według odpowiedzi mkt.

Mam nadzieję że to pomoże.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.