Myślę, że kluczową częścią do rozważenia w odpowiedzi na twoje pytanie jest
Staram się znaleźć najlepszy model do przewidywania cen samochodów
ponieważ to stwierdzenie sugeruje coś o tym, dlaczego chcesz użyć modelu. Wybór modelu i ocena powinny opierać się na tym, co chcesz osiągnąć dzięki dopasowanym wartościom.
Po pierwsze, podsumujmy, co robi R2 : Oblicza miarę skalowaną na podstawie funkcji straty kwadratowej, o której jestem pewien, że już wiesz. Aby to zobaczyć, określić resztkową dla i-tej obserwacji y I i odpowiednia wartość wyposażona y ja . Używając wygodnej notacji S S R : = ∑ N i = 1 e 2 i , S S T : = ∑ei=yi−y^iyiy^iSSR:=∑Ni=1e2i,R2jest po prostu określone jakoR2=1-SSR/SST.SST:=∑Ni=1(yi−y¯)2R2R2=1−SSR/SST
Po drugie, przyjrzyjmy się, co przy użyciu dla modelu wyboru / oceny środkówR2 . Załóżmy, że wybieramy z zestawu prognoz które zostały wygenerowane przy użyciu modelu M : M ∈ M , gdzie M jest kolekcją rozważanych modeli (w twoim przykładzie ta kolekcja zawierałaby sieci neuronowe, losowe lasy, siatki elastyczne, ...) Ponieważ S S T pozostanie stałą wśród wszystkich modeli, jeśli minimalizując R 2 można wybrać dokładnie model, który minimalizuje S S R . Innymi słowy, wybierzeszY¯MM:M∈MMSSTR2SSR który powoduje minimalną stratę błędu kwadratowego!M∈M
Po trzecie, rozważmy dlaczego R2 lub równoważnie, może być interesujące dla modelu wyboru . Tradycyjnie stratę kwadratową ( normę L 2 ) stosuje się z trzech powodów: (1) Jest łatwiejsza do obliczenia niż najmniejsze odchylenia bezwzględne (LAD, norma L 1 ), ponieważ w obliczeniach nie pojawia się żadna wartość bezwzględna, (2) karze dopasowany wartości, które znacznie odbiegają od rzeczywistej wartości znacznie bardziej niż LAD (w sensie kwadratowym niż absolutnym), a tym samym upewniają się, że mamy mniej skrajne wartości odstające, (3) jest symetryczny : przeszacowanie lub niedoszacowanie ceny samochodu jest uważany za równie zły.SSR L2L1
Po czwarte (i ostatnie), zobaczmy, czy tego właśnie potrzebujesz do swoich prognoz. Punktem, który może być tutaj najbardziej interesujący, jest (3) z ostatniego akapitu. Załóżmy, że chcesz zająć neutralne stanowisko i nie jesteś kupującym ani sprzedającym samochód. Następnie, może mieć sens: jesteś bezstronny i chcesz ukarać odchylenia do nad- lub zaniżonych dokładnie identycznie. To samo dotyczy sytuacji, gdy chcesz po prostu modelować relację między wielkościami bez chęci przewidywania nieobserwowanych wartości. Załóżmy teraz, że pracujesz dla konsumenta / nabywcy o napiętym budżecie: W tej sytuacji możesz chcieć ukarać przeszacowanie ceny w sensie kwadratowym, ale niedoszacowanie w sensie L p , gdzie 1 ⩽ pR2Lp . Dla p = 1 karałbyś w sensie absolutnego odchylenia. Można to postrzegać jako odzwierciedlające cele i intencje kupującego, a odchylenie szacunków w dół może być dla niego interesujące. I odwrotnie, możesz odwrócić myślenie, jeśli modelujesz prognozy cenowe dla sprzedającego. Nie trzeba dodawać, każda norma L p może zostać wybrana w celu odzwierciedlenia preferencji modelarza / agent ci modelu. Możesz równieżcałkowiciekarać pozanormą L p , i stosować stałą, wykładniczą lub logarytmiczną utratę z jednej strony i inną stratę z drugiej.1⩽p<2p=1LpLp
Podsumowując, wyboru / oceny modelu nie można rozpatrywać niezależnie od celu modelu.