Ta odpowiedź skupi się głównie na , ale większość tej logiki obejmuje inne wskaźniki, takie jak AUC i tak dalej.R2
Czytelnicy CrossValidated prawie na pewno nie odpowiedzą na to pytanie. Nie ma kontekstowego sposobu, aby zdecydować, czy wskaźniki modelu, takie jak są dobre, czy nieR2 . W skrajnościach zazwyczaj możliwe jest uzyskanie konsensusu od wielu różnych ekspertów: wynoszące prawie 1 ogólnie oznacza dobry model, a bliskie 0 oznacza straszny. Pomiędzy leży zakres, w którym oceny są z natury subiektywne. W tym zakresie odpowiedź na pytanie, czy dane modelu są dobre, wymaga nie tylko wiedzy statystycznej. Wymaga dodatkowej wiedzy specjalistycznej w Twojej dziedzinie, której czytelnicy CrossValidated prawdopodobnie nie mają.R2
Dlaczego to? Pozwól mi zilustrować przykładem z własnego doświadczenia (drobne szczegóły zmienione).
Robiłem eksperymenty laboratoryjne z mikrobiologii. Ustawiałbym kolby komórek na różnych poziomach stężenia składników odżywczych i mierzyłbym wzrost gęstości komórek (tj. Nachylenie gęstości komórek w funkcji czasu, choć ten szczegół nie jest ważny). Kiedy następnie modelowałem ten związek wzrostu / składników odżywczych, często wartości > 0,90.R2
Jestem teraz naukowcem środowiska. Pracuję z zestawami danych zawierającymi pomiary z natury. Gdybym spróbował dopasować dokładnie ten sam model opisany powyżej do tych „polowych” zestawów danych, byłbym zaskoczony, gdybym był tak wysoki jak 0,4.R2
Te dwa przypadki dotyczą dokładnie tych samych parametrów, z bardzo podobnymi metodami pomiaru, modelami zapisanymi i dopasowanymi przy użyciu tych samych procedur - a nawet ta sama osoba wykonuje dopasowanie! Ale w jednym przypadku wynoszące 0,7 byłoby niepokojąco niskie, aw drugim byłoby podejrzanie wysokie.R2
Ponadto wykonalibyśmy pomiary chemiczne obok pomiarów biologicznych. Modele standardowych krzywych chemicznych miałyby około 0,99, a wartość 0,90 byłaby niepokojąco niska .R2
Co prowadzi do tak dużych różnic w oczekiwaniach? Kontekst. Ten niejasny termin obejmuje rozległy obszar, więc pozwól mi spróbować podzielić go na kilka bardziej szczegółowych czynników (jest to prawdopodobnie niekompletne):
1. Jaka jest wypłata / konsekwencja / wniosek?
To tutaj charakter twojego pola będzie prawdopodobnie najważniejszy. Jakkolwiek cenna, jak sądzę, jest moja praca, podwyższenie mojego modelu o 0,1 lub 0,2 nie zrewolucjonizuje świata. Ale są zastosowania, w których ogrom zmian byłby ogromną sprawą! Znacznie mniejsza poprawa w modelu prognozy akcji może oznaczać dziesiątki milionów dolarów dla firmy, która go rozwija.R2
Jest to jeszcze łatwiejsze do zilustrowania dla klasyfikatorów, więc zamierzam zmienić dyskusję o metrykach z na dokładność w poniższym przykładzie (ignorując na razie słabość metryki dokładności ). Pomyśl o dziwnym i lukratywnym świecie seksu z kurczakiem . Po latach treningu człowiek może szybko odróżnić pisklę od samca i samicy w wieku zaledwie 1 dnia. Samce i samice są karmione w różny sposób, aby zoptymalizować produkcję mięsa i jaj, więc wysoka dokładność pozwala zaoszczędzić ogromne kwoty przy niewłaściwej inwestycji w miliardyR2ptaków. Jeszcze kilkadziesiąt lat temu w Stanach Zjednoczonych uważano, że dokładność wynosząca około 85% jest wysoka. Czy wartość osiągnięcia najwyższej dokładności wynosi obecnie około 99%? Wynagrodzenie, które najwyraźniej może wynosić od 60 000 do prawdopodobnie 180 000 dolarów rocznie (w oparciu o szybki przegląd Google). Ponieważ ludzie wciąż mają ograniczoną szybkość, z jaką pracują, algorytmy uczenia maszynowego, które mogą osiągnąć podobną dokładność, ale pozwalają na szybsze sortowanie, mogą być warte miliony.
(Mam nadzieję, że podoba ci się ten przykład - alternatywą była przygnębiająca bardzo podejrzana algorytmiczna identyfikacja terrorystów).
2. Jak silny jest wpływ niemodelowanych czynników w twoim systemie?
W wielu eksperymentach masz luksus izolowania systemu od wszystkich innych czynników, które mogą na niego wpływać (w końcu to częściowo cel eksperymentu). Natura jest bardziej chaotyczna. Kontynuując poprzedni przykład mikrobiologii: komórki rosną, gdy są dostępne składniki odżywcze, ale wpływają na nie także inne rzeczy - jak gorąco, ile drapieżników je jeść, czy w wodzie są toksyny. Wszystkie te związki zawierają składniki odżywcze i ze sobą w złożony sposób. Każdy z tych innych czynników powoduje zmiany w danych, które nie są rejestrowane przez Twój model. Substancje odżywcze mogą być nieistotne w wariacji prowadzenia pojazdu w stosunku do innych czynników, a więc jeśli wykluczę te inne czynniki, mój model moich danych terenowych będzie musiał mieć niższą wartość .R2
3. Jak dokładne i dokładne są twoje pomiary?
Pomiar stężenia komórek i substancji chemicznych może być niezwykle precyzyjny i dokładny. Mierzenie (na przykład) stanu emocjonalnego społeczności w oparciu o trendy hashtagów na Twitterze może być… mniej. Jeśli nie możesz być precyzyjny w swoich pomiarach, jest mało prawdopodobne, aby Twój model kiedykolwiek osiągnął wysoką wartość . Jak dokładne są pomiary w twoim polu? Prawdopodobnie nie wiemy.R2
4. Złożoność i uogólnienie modelu
Jeśli dodasz do modelu więcej czynników, nawet losowych, średnio zwiększysz model (skorygowane częściowo rozwiązuje ten problem). To jest zbyt dobre . Model dopasowania nie uogólnia się dobrze na nowe dane, tj. Będzie miał wyższy błąd prognozowania niż oczekiwano na podstawie dopasowania do oryginalnego (szkoleniowego) zestawu danych. Wynika to z tego, że pasuje do szumu w oryginalnym zestawie danych. Jest to częściowo spowodowane tym, że modele są karane za złożoność procedur wyboru modelu lub poddawane regularyzacji.R2R2
Jeśli przeuczenie zostanie zignorowane lub nie uda mu się skutecznie zapobiec, oszacowane będzie tendencyjne w górę, tj. Wyższe niż powinno być. Innymi słowy, twoja wartość może dać ci mylące wrażenie wydajności twojego modelu, jeśli jest on nadmierny.R2R2
IMO, nadmierne dopasowanie jest zaskakująco powszechne w wielu dziedzinach. Jak najlepiej tego uniknąć, to skomplikowany temat. Jeśli jesteś zainteresowany , polecam przeczytanie o procedurach regularyzacji i wyborze modelu na tej stronie.
5. Zakres danych i ekstrapolacja
Czy Twój zestaw danych obejmuje znaczną część zakresu wartości X, którymi jesteś zainteresowany? Dodanie nowych punktów danych poza istniejącym zakresem danych może mieć duży wpływ na szacowany , ponieważ jest to metryka oparta na wariancji w X i Y.R2
Poza tym, jeśli dopasujesz model do zestawu danych i będziesz musiał przewidzieć wartość poza zakresem X tego zbioru danych (tj. Ekstrapolować ), możesz stwierdzić, że jego wydajność jest niższa niż się spodziewasz. Wynika to z faktu, że oszacowany przez Ciebie związek może się zmienić poza dopasowanym zakresem danych. Na poniższym rysunku, jeśli wykonałeś pomiary tylko w zakresie wskazanym przez zielone pole, możesz sobie wyobrazić, że prosta linia (na czerwono) dobrze opisuje dane. Ale jeśli spróbujesz przewidzieć wartość poza tym zakresem za pomocą tej czerwonej linii, byłbyś całkiem niepoprawny.
[Rysunek jest zredagowaną wersją tego , znalezioną przez szybkie wyszukiwanie w Google „Krzywa Monod”.]
6. Metryki dają tylko fragment obrazu
Nie jest to tak naprawdę krytyka wskaźników - są to streszczenia , co oznacza, że odrzucają również informacje zgodnie z projektem. Ale to oznacza, że każda pojedyncza metryka pomija informacje, które mogą być kluczowe dla jej interpretacji. Dobra analiza uwzględnia więcej niż jedną metrykę.
Sugestie, poprawki i inne opinie mile widziane. I oczywiście także inne odpowiedzi.