Na studiach podjąłem kurs uczenia maszynowego. W jednym z quizów zadano to pytanie.
Model 1:
Model 2:Który z powyższych modeli lepiej pasowałby do danych? (załóżmy, że dane mogą być modelowane przy użyciu regresji liniowej)
Prawidłowa odpowiedź (zdaniem profesora) jest taka, że oba modele działałyby równie dobrze. Uważam jednak, że pierwszy model byłby lepiej dopasowany.
To jest powód mojej odpowiedzi. Drugi model, który można przepisać jako , , nie będzie taki sam jak pierwszy model. jest w rzeczywistości parabolą, a zatem ma wartość minimalną ( w tym przypadku - 0,25 ). Z tego powodu zakres w pierwszym modelu jest większy niż zakres w drugim modelu. Dlatego jeśli dane były takie, że najlepsze dopasowanie miało nachylenie mniejsze niż , drugi model działałby bardzo słabo w porównaniu z pierwszym. Jednak w przypadku, gdy nachylenie najlepszego dopasowania było większe niż , oba modele wypadłyby równie dobrze.
Czy pierwszy jest lepszy, czy oba są dokładnie takie same?