RMSE a współczynnik determinacji


21

Oceniam model fizyczny i chciałbym wiedzieć, której z metod powinienem tutaj użyć (między RMSE a współczynnikiem determinacji R2)

Problem jest następujący: Mam funkcję, która wyświetla prognozy dla wartości wejściowej x, . Mam też faktyczną obserwację tej wartości, którą nazywam yyx¯=f(x) .yx

Moje pytanie brzmi, jakie są plusy i minusy obu RMSE lub R2 . Widziałem, jak oba z nich są używane w papierach z powodu problemu, nad którym pracuję.

Odpowiedzi:


16

Użyłem ich obu i mam kilka punktów do zrobienia.

  • Rmse jest użyteczny, ponieważ łatwo go wyjaśnić. Wszyscy wiedzą co to jest.
  • Rmse nie pokazuje wartości względnych. Jeśli , musisz dokładnie znać zakres α < y x < β . Jeśli α = 1 , β = 1000 , to 0,2 jest dobrą wartością. Jeśli α = 0 , β =rmse=0.2α<yx<βα=1,β=1000α=0,β=1 , nie wydaje się już tak dobrze.
  • Zgodnie z poprzednim podejściem rmse jest dobrym sposobem na ukrycie faktu, że osoby, które badałeś lub pomiary, które wykonałeś, są w większości jednakowe (wszyscy ocenili produkt z 3 gwiazdkami), a twoje wyniki wyglądają dobrze, ponieważ dane ci pomogły. Gdyby dane były nieco losowe, model znalazłby się na orbicie Jowisza.
  • Użyj skorygowanego współczynnika determinacji zamiast zwykłego R2)
  • Współczynnik determinacji jest trudny do wyjaśnienia. Nawet ludzie z pola potrzebują takiej wskazówki, jak \ przypis {Skorygowany współczynnik determinacji to proporcja zmienności w zbiorze danych, którą można wyjaśnić modelem statystycznym. Ta wartość pokazuje, jak dobrze model może przewidzieć przyszłe wyniki. R2) może przyjąć 0 jako minimum, a 1 jako maksimum.}
  • Współczynnik determinacji jest jednak bardzo precyzyjny w określaniu, jak dobrze Twój model wyjaśnia zjawisko. jeśli , niezależnie od wartości y x , twój model jest zły. Uważam, że punkt odcięcia dla dobrego modelu zaczyna się od 0,6, a jeśli masz coś około 0,7-0,8, twój model jest bardzo dobry.R2)=0.2yx
  • Reasumując, mówi, że w twoim modelu możesz wyjaśnić 70% tego, co dzieje się w rzeczywistych danych. Reszta, 30%, jest czymś, czego nie znasz i nie możesz wyjaśnić. Prawdopodobnie dzieje się tak dlatego, że występują czynniki zakłócające lub popełniłeś błędy przy konstruowaniu modelu.R2)=0,7
  • W informatyce prawie wszyscy używają rmse. Nauki społeczne wykorzystują R2) częściej.
  • Jeśli nie musisz uzasadniać parametrów w swoim modelu, po prostu użyj rmse. Jednakże, jeśli trzeba umieścić w, usunąć lub zmienić parametry podczas budowania modelu, trzeba używać , aby pokazać, że te parametry mogą wyjaśnić dane najlepiej.R2)
  • Jeśli będziesz używać , kod w języku R. Ma biblioteki, a ty po prostu podajesz dane, aby uzyskać wszystkie wyniki.R2)

Dla początkującego informatyka ekscytujące było pisanie o statystykach. Z poważaniem.


8
This value shows how well future outcomes can be predicted by the model- jest to bardzo mylące i skłania się ku zwykłemu błędowi . Nie ma gwarancji, że wysoki współczynnik determinacji w danym modelu odnosi się do tego, jak dobrze przewidywane będą przyszłe wyniki.
Prophet60091

5
Myślę, że stwierdzenia typu „ jeśli twój model jest złyR2)=0.2 ”, „ twój model jest bardzo dobryR2)=0,7-0,8 ” są uogólnieniami. Jeśli cokolwiek z prawdziwego problemu na świecie, z 0,8 sprawi, że podejrzewam, że problemy z nadmiernym dopasowaniem są bardzo podejrzane ...R2)
usεr11852 mówi Przywróć Monic

3
jeśli = 0,2, niezależnie od wartości yx, twój model jest zły. Uważam, że punkt odcięcia dla dobrego modelu zaczyna się od 0,6, a jeśli masz coś około 0,7-0,8, twój model jest bardzo dobry. Zależy to w dużej mierze od dziedziny, w której pracujesz. Wyobraź sobie, że próbujesz przewidzieć odpowiednie wskaźniki wymiany stosów na przyszły rok. Byłbyś najbogatszym człowiekiem na świecie z R 2 wynoszącym 0,2. R2R2
Jan Hackenberg

Zgadzam się z Janem Hackenbergiem i Prophet60091. Części twojej odpowiedzi są zdecydowanie błędne i nie rozumiem, dlaczego jest to zaakceptowana odpowiedź, a ludzie są entuzjastycznie nastawieni. W rzeczywistości oznacza to prawdopodobnie, że ludzie używają swoich danych, nie wiedząc, jak je interpretować.
Cord Kaldemeyer

9

Bez względu na to, jaki pomiar błędu podajesz, rozważ podanie pełnego wektora wyniku w załączniku. Ludzie, którzy lubią porównywać z twoją metodą, ale wolą inny pomiar błędu, mogą czerpać taką wartość z tabeli.

R2) :

  • R2) zbliżone do 1.

  • R2)

  • Można to wyrazić za pomocą łatwej do zrozumienia formuły, w której buduje się stosunek sumy kwadratów reszt i dzieli przez średnią:

R2)=1-S.S.mimmizan=1-(yja-yja¯)2)(yja-y¯)2)

  • Rzarejot.2). Tutaj więcej predyktorów karze model. Oczekuje się, że będzie bardziej odporny na nadmierne dopasowanie.

RM.S.mi:

  • Możesz osiągnąć niski poziom RM.S.mitylko dzięki wysokiej precyzji (pojedyncze, ale duże wartości odstające silnie karają) i bez systematycznego błędu. W pewien sposób niskiRM.S.mi gwarantuje lepszą jakość niż wysoka R2) robi.

  • Ten numer ma jednostkę i nie jest łatwy do interpretacji dla osób, które nie znają twoich danych. Można go na przykład podzielić ze średnią danych, aby uzyskać armil.RM.S.mi. Uważaj, to nie jedyna definicjarmil.RM.S.mi. Niektóre osoby wolą dzielić według zakresu swoich danych niż dzielić według średniej.

As other people mentioned, the choice might be dependent on your field and state of the art. Is there a hugely accepted method to compare too? Use the same measurement as they do and you are able to directly link your methods benefits easily in the discussion.


7

Both the Root-Mean-Square-Error (RMSE) and coefficient of determination (R2) oferują różne, ale uzupełniające się informacje, które należy ocenić podczas oceny modelu fizycznego. Nie jest też „lepszy”, ale niektóre raporty mogą koncentrować się bardziej na jednej metryki w zależności od konkretnej aplikacji.

Użyłbym tego jako bardzo ogólnego przewodnika, aby zrozumieć różnicę między tymi dwoma danymi:

RMSE daje poczucie tego, jak blisko (lub daleko) Twoje przewidywane wartości są z rzeczywistych danych, które próbujesz modelu. Jest to przydatne w różnych aplikacjach, w których chcesz zrozumieć dokładność i precyzję prognoz modelu (np. Modelowanie wysokości drzewa).

Plusy

  1. Jest to stosunkowo łatwe do zrozumienia i przekazania, ponieważ zgłaszane wartości są w tych samych jednostkach, co modelowana zmienna zależna.

Cons

  1. Jest wrażliwy na duże błędy (bardziej karze większe błędy prognozowania niż mniejsze błędy prognozowania).

Współczynnik korelacji (R2)) jest przydatny, gdy próbujesz zrozumieć, jak dobrze wybrane zmienne niezależne wyjaśniają zmienność zmiennych zależnych. Jest to przydatne, gdy próbujesz wyjaśnić, jakie czynniki mogą napędzać leżący u podstaw proces zainteresowania (np. Zmienne klimatyczne i warunki glebowe związane z wysokością drzewa).

Plusy

  1. Daje ogólny obraz tego, jak dobrze wybrane zmienne pasują do danych.

Cons

  1. W miarę dodawania do modelu więcej niezależnych zmiennych, R2)wzrasta (patrz przym.R2)lub Kryterium informacyjne Akaike jako potencjalne alternatywy).

Oczywiście powyższe będzie uzależnione od wielkości próby i projektu próbkowania oraz ogólnego zrozumienia, że ​​korelacja nie implikuje związku przyczynowego.


1

Istnieje również MAE, Mean Absolute Error. W przeciwieństwie do RMSE, nie jest zbyt wrażliwy na duże błędy. Z tego, co przeczytałem, niektóre pola wolą RMSE, inne MAE. Lubię używać obu.


0

W rzeczywistości, dla naukowców statystycznych powinien znać najlepsze dopasowanie modelu, wtedy RMSE jest bardzo ważny dla tych ludzi w jego solidnych badaniach. Jeśli RMSE jest bardzo bliski zeru, wtedy model jest najlepiej dopasowany.

Współczynnik determinacji jest dobry dla innych naukowców, takich jak rolnictwo i inne dziedziny. Jest to wartość z zakresu od 0 do 1. Jeśli jest to 1, 100% wartości odpowiada obserwowanym zestawom danych. Jeśli wynosi 0, to dane są całkowicie niejednorodne. Dr.SK. Khadar Babu, VIT University, Vellore, TamilNadu, Indie.


0

Jeśli do każdego elementu jednego z wektorów zostanie dodana pewna liczba, zmieni się RMSE. To samo, jeśli wszystkie elementy jednego lub obu wektorów są pomnożone przez liczbę. Następuje kod R;

#RMSE vs pearson's correlation
one<-rnorm(100)
two<-one+rnorm(100)

rumis<-(two - one)^2
(RMSE<-sqrt(mean(rumis)))
cor(one,two)

oneA<-one+100

rumis<-(two - oneA)^2
(RMSE<-sqrt(mean(rumis)))
cor(oneA,two)

oneB<-one*10
twoB<-two*10

rumis<-(twoB - oneB)^2
(RMSE<-sqrt(mean(rumis)))
cor(oneB,twoB)
cor(oneB,twoB)^2

0

Ostatecznie różnicą jest po prostu standaryzacja, ponieważ obie prowadzą do wyboru tego samego modelu, ponieważ RMSE razy liczba obserwacji znajduje się w liczniku lub do kwadratu R, a mianownik tego drugiego jest stały we wszystkich modelach (wystarczy wykreślić jedną miarę względem inne dla 10 różnych modeli).

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.