Jak interpretować miary błędów?


41

Korzystam z klasyfikowania w Weka dla określonego zestawu danych i zauważyłem, że jeśli próbuję przewidzieć wartość nominalną, dane wyjściowe wyraźnie pokazują prawidłowe i niepoprawne wartości. Jednak teraz uruchamiam go dla atrybutu liczbowego, a wynikiem jest:

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

Jak to interpretować? Próbowałem googlować przy każdym pojęciu, ale niewiele rozumiem, ponieważ statystyki nie należą do mojej dziedziny wiedzy. Byłbym bardzo wdzięczny za odpowiedź typu ELI5 pod względem statystyki.

Odpowiedzi:


52

Oznaczmy prawdziwą wartość zainteresowania jako a wartość oszacowaną za pomocą jakiegoś algorytmu jako \ hat {\ theta} .θθ^

Korelacja mówi ci, ile są powiązane i . Daje wartości od do , gdzie to brak zależności, jest bardzo silna, zależność liniowa, a to odwrotna zależność liniowa (tzn. Większe wartości oznaczają mniejsze wartości lub odwrotnie versa). Poniżej znajduje się ilustrowany przykład korelacji.θθ^11011θθ^

Przykład korelacji

(źródło: http://www.mathsisfun.com/data/correlation.html )

Średni błąd bezwzględny wynosi:

MAE=1Ni=1N|θ^iθi|

Korzeń błąd średni kwadratowy wynosi:

RMSE=1Ni=1N(θ^iθi)2

Względny błąd bezwzględny :

RAE=i=1N|θ^iθi|i=1N|θ¯θi|

gdzie to średnia wartość .θ¯θ

Błąd względny pierwiastka z kwadratu:

RRSE=i=1N(θ^iθi)2i=1N(θ¯θi)2

Jak widać, wszystkie statystyki porównują prawdziwe wartości z ich szacunkami, ale robią to w nieco inny sposób. Wszystkie mówią ci „jak daleko” są twoje szacunkowe wartości od prawdziwej wartości . Czasami stosuje się pierwiastki kwadratowe, a czasem wartości bezwzględne - dzieje się tak dlatego, że przy stosowaniu pierwiastków kwadratowych wartości ekstremalne mają większy wpływ na wynik (zobacz Dlaczego kwadratowa różnica zamiast przyjmować wartość bezwzględną w odchyleniu standardowym? Lub na Mathoverflow ).θ

W i po prostu patrzysz na „średnią różnicę” między tymi dwiema wartościami - więc interpretujesz je w porównaniu ze skalą twojej wartościowości (tj. Mathrm 1 punkt to różnica 1 punktu między i ).MAERMSEMSEθθ^θ

W i te różnice przez odmianę więc mają one skalę od 0 do 1, a jeśli pomnożysz tę wartość przez 100, otrzymasz podobieństwo w skali 0-100 (tj. Procent ). Wartości lubpowiedzieć ci, jak bardzo różni się od jego średniej wartości - więc możesz powiedzieć, że chodzi o to, jak bardzo różni się od siebie (porównaj z wariancją ). Z tego powodu miary nazywane są „względnymi” - dają wynik związany ze skalą .RAERRSEθ(θ¯θi)2|θ¯θi|θθθ

Sprawdź także te slajdy .


Dziękuję za wyjaśnienie! Usiłuję ocenić wydajność różnych algorytmów. Na przykład, jeśli otrzymam te inne dane wyjściowe (Korelacja: 0,3044, MAE: 10,832, MSE: 47,2971, RAE: 83,163%, RSE: 95,2797%) i spróbuję porównać to z pierwszym, które można powiedzieć, że wykonane lepszy?
FloIancu,

5
Powinieneś wybrać model z większą korelacją i mniejszymi szacunkami błędów. Jak widać, istnieje wiele miar wydajności modelu (a jest ich tylko kilka) i czasami dają różne odpowiedzi. Prawie nigdy nie jest to odpowiedź typu „tak / nie”. Zadanie wyboru modelu byłoby łatwiejsze, jeśli dogonisz teorię, możesz sprawdzić na przykład te wykłady .
Tim

Dziękuję Ci bardzo! Poszedłem i zaznaczyłem twoją odpowiedź jako odpowiedź, ponieważ bardzo mi pomogłeś!
FloIancu,

1
@Tim Średni błąd bezwzględny należy prawdopodobnie skrócić jako MAE :)
Antoine

1
@MewX Jakiego rodzaju referencji szukasz? Jest to w zasadzie przeskalowany RMSE. Nie ma wiele do powiedzenia na ten temat ...
Tim
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.