Nie mają do. Funkcja straty ma to samo minimum, niezależnie od tego, czy uwzględnisz1m lub stłumić. Jeśli jednak go uwzględnisz, uzyskasz dobrą interpretację minimalizacji (połowy) średniego błędu na punkt danych. Innymi słowy, jesteś w błędzie, minimalizując tempo zamiast całkowitego błędu.
Rozważ porównanie wydajności dwóch zestawów danych o różnych rozmiarach. Surowa suma błędów w kwadracie nie jest bezpośrednio porównywalna, ponieważ większe zestawy danych zwykle zawierają więcej błędów całkowitych tylko ze względu na ich rozmiar. Z drugiej strony średni błąd na punkt danych wynosi .
Czy możesz trochę rozwinąć?
Pewnie. Twój zestaw danych to zbiór punktów danych . Gdy masz model h , błąd najmniejszych kwadratów h w pojedynczym punkcie danych wynosi{xi,yi}hh
(h(xi)−yi)2
jest to oczywiście inne dla każdego punktu danych. Teraz, jeśli po prostu zsumujemy błędy (i pomnożymy przez połowę z powodu, który opisujesz) otrzymamy błąd całkowity
12∑i(h(xi)−yi)2
ale jeśli podzielimy przez liczbę sum, otrzymamy średni błąd na punkt danych
12m∑i(h(xi)−yi)2
{xi,yi}{x′i,y′i} z differeing rozmiary , wtedy możemy porównać średnie błędy, ale nie całkowite błędów. Jeśli bowiem drugi zestaw danych jest, powiedzmy, dziesięciokrotnie większy niż pierwszy, to spodziewalibyśmy się, że całkowity błąd będzie około dziesięć razy większy dla tego samego modelu. Z drugiej strony przeciętny błąd dzieli wpływ wielkości zbioru danych, dlatego spodziewalibyśmy się, że modele o podobnej wydajności będą miały podobne średnie błędy w różnych zestawach danych.