Główną różnicą między interpolacją a regresją jest definicja problemu, który rozwiązują.
Biorąc pod uwagę punktów danych, interpolując, szukasz funkcji, która ma jakąś predefiniowaną formę, która ma wartości w tych punktach dokładnie tak, jak określono. Oznacza to, że w danych parach ( x i , y i ) szukasz F w jakiejś predefiniowanej formie, która spełnia F ( x i ) = y i . Myślę, że najczęściej F.n(xi,yi)FF(xi)=yiF jest wybierane jako wielomianowe, wielowypustowe (wielomiany niskiego stopnia w odstępach między podanymi punktami).
Wykonując regresję, szukasz funkcji, która minimalizuje niektóre koszty, zwykle sumę kwadratów błędów. Nie potrzebujesz, aby funkcja miała dokładne wartości w danych punktach, po prostu chcesz mieć dobre przybliżenie. Ogólnie rzecz biorąc, znaleziona funkcja może nie spełniać F ( x i ) = y i dla dowolnego punktu danych, ale funkcja kosztu, tj. ∑ n i = 1 ( F ( x i ) - y i ) 2, będzie najmniejsza z możliwych wszystkich funkcji danej formy.FF(xi)=yi∑ni=1(F(xi)−yi)2
Dobrym przykładem tego, dlaczego warto jedynie przybliżać zamiast interpolować, są ceny na giełdzie. Możesz wziąć ceny w niektórych ostatnich jednostkach czasu i spróbować interpolować je, aby uzyskać prognozę ceny w następnej jednostce czasu. Jest to raczej zły pomysł, ponieważ nie ma powodu, aby sądzić, że relacje między cenami można dokładnie wyrazić wielomianem. Ale regresja liniowa może załatwić sprawę, ponieważ ceny mogą mieć pewne „nachylenie”, a funkcja liniowa może być dobrym przybliżeniem, przynajmniej lokalnie (wskazówka: nie jest to takie łatwe, ale regresja jest zdecydowanie lepszym pomysłem niż interpolacja w tym przypadku ).k