Czy wartość R-kwadrat jest odpowiednia do porównywania modeli?

Staram się znaleźć najlepszy model do przewidywania cen samochodów, korzystając z cen i funkcji dostępnych na stronach ogłoszeń samochodowych.

Do tego wykorzystałem kilka modeli z biblioteki scikit-learn oraz modele sieci neuronowej z pybrain i neurolabu. Podejście, które do tej pory stosowałem, polega na przepuszczeniu stałej ilości danych przez niektóre modele (algorytmy uczenia maszynowego) i porównaniu tam wartości $R^2$ , które zostały obliczone za pomocą modułu metryk scikit-learn.

Czy to dobra metoda porównywania wydajności różnych modeli? $R^2$
Chociaż otrzymałem całkiem akceptowalne wyniki dla modeli takich jak Sieć elastyczna i Lasy losowe, otrzymałem bardzo słabe wartości dla modeli sieci neuronowych, więc czy jest odpowiednią metodą oceny sieci neuronowych (lub metod nieliniowych)? $R^2$ $R^2$

— Manik
źródło

Krótka odpowiedź brzmi: nie . Może pomóc ci przeczytać moją odpowiedź tutaj: Ocena i porównanie modelu w celu wybrania najlepszego modelu , który jest dość ściśle związany z twoim pytaniem. Rozwiązanie kandydujące opisano tutaj . Aby uzyskać bardziej ogólne zrozumienie, możesz spróbować przeczytać niektóre wątki w witrynie skategoryzowane pod tagiem wyboru modelu .

— gung - Przywróć Monikę

@gung Dziękuję! czy mogę zapytać, jaki byłby odpowiedni dobro miary dopasowania do regresji za pomocą sieci neuronowych?

— Manik

Myślę, że kluczową częścią do rozważenia w odpowiedzi na twoje pytanie jest

Staram się znaleźć najlepszy model do przewidywania cen samochodów

ponieważ to stwierdzenie sugeruje coś o tym, dlaczego chcesz użyć modelu. Wybór modelu i ocena powinny opierać się na tym, co chcesz osiągnąć dzięki dopasowanym wartościom.

Po pierwsze, podsumujmy, co robi $R^2$ : Oblicza miarę skalowaną na podstawie funkcji straty kwadratowej, o której jestem pewien, że już wiesz. Aby to zobaczyć, określić resztkową dla i-tej obserwacji i odpowiednia wartość wyposażona . Używając wygodnej notacji , $e_i = y_i - \hat{y}_i$ $y_i$ $\hat{y}_i$ $SSR := \sum_{i=1}^Ne_i^2$ ,jest po prostu określone jako. $SST:=\sum_{i=1}^N(y_i - \bar{y})^2$ $R^2$ $R^2 = 1 - SSR/SST$

Po drugie, przyjrzyjmy się, co przy użyciu dla modelu wyboru / oceny środków $R^2$ . Załóżmy, że wybieramy z zestawu prognoz które zostały wygenerowane przy użyciu modelu , gdzie jest kolekcją rozważanych modeli (w twoim przykładzie ta kolekcja zawierałaby sieci neuronowe, losowe lasy, siatki elastyczne, ...) Ponieważ pozostanie stałą wśród wszystkich modeli, jeśli minimalizując można wybrać dokładnie model, który minimalizuje . Innymi słowy, wybierzesz $\bar{Y}_M$ $M:M \in \mathcal{M}$ $\mathcal{M}$ $SST$ $R^2$ $SSR$ który powoduje minimalną stratę błędu kwadratowego! $M \in \mathcal{M}$

Po trzecie, rozważmy dlaczego $R^2$ lub równoważnie, może być interesujące dla modelu wyboru . Tradycyjnie stratę kwadratową ( normę ) stosuje się z trzech powodów: (1) Jest łatwiejsza do obliczenia niż najmniejsze odchylenia bezwzględne (LAD, norma ), ponieważ w obliczeniach nie pojawia się żadna wartość bezwzględna, (2) karze dopasowany wartości, które znacznie odbiegają od rzeczywistej wartości znacznie bardziej niż LAD (w sensie kwadratowym niż absolutnym), a tym samym upewniają się, że mamy mniej skrajne wartości odstające, (3) jest symetryczny : przeszacowanie lub niedoszacowanie ceny samochodu jest uważany za równie zły. $SSR$ $L^2$ $L^1$

Po czwarte (i ostatnie), zobaczmy, czy tego właśnie potrzebujesz do swoich prognoz. Punktem, który może być tutaj najbardziej interesujący, jest (3) z ostatniego akapitu. Załóżmy, że chcesz zająć neutralne stanowisko i nie jesteś kupującym ani sprzedającym samochód. Następnie, może mieć sens: jesteś bezstronny i chcesz ukarać odchylenia do nad- lub zaniżonych dokładnie identycznie. To samo dotyczy sytuacji, gdy chcesz po prostu modelować relację między wielkościami bez chęci przewidywania nieobserwowanych wartości. Załóżmy teraz, że pracujesz dla konsumenta / nabywcy o napiętym budżecie: W tej sytuacji możesz chcieć ukarać przeszacowanie ceny w sensie kwadratowym, ale niedoszacowanie w sensie , gdzie $R^2$ $L^p$ . Dla karałbyś w sensie absolutnego odchylenia. Można to postrzegać jako odzwierciedlające cele i intencje kupującego, a odchylenie szacunków w dół może być dla niego interesujące. I odwrotnie, możesz odwrócić myślenie, jeśli modelujesz prognozy cenowe dla sprzedającego. Nie trzeba dodawać, każda norma może zostać wybrana w celu odzwierciedlenia preferencji modelarza / agent ci modelu. Możesz równieżcałkowiciekarać pozanormą , i stosować stałą, wykładniczą lub logarytmiczną utratę z jednej strony i inną stratę z drugiej. $1 \leqslant p <2$ $p=1$ $L^p$ $L^p$

Podsumowując, wyboru / oceny modelu nie można rozpatrywać niezależnie od celu modelu.

— Jeremias K
źródło