Aby dodać do tego wizualne wyjaśnienie: rozważmy kilka punktów, które planujesz modelować.
Wyglądają, jakby można je było dobrze opisać linią prostą, więc dopasuj do nich regresję liniową:
Ta linia regresji pozwala zarówno interpolować (generować oczekiwane wartości między punktami danych), jak i ekstrapolować (generować oczekiwane wartości poza zakresem punktów danych). Podkreśliłem ekstrapolację na czerwono, a największy obszar interpolacji na niebiesko. Żeby było jasne, nawet małe regiony między punktami są interpolowane, ale tutaj podkreślam tylko duży.
Dlaczego ekstrapolacja jest na ogół większym problemem? Ponieważ zwykle nie masz pewności co do kształtu relacji poza zakresem danych. Zastanów się, co może się stać, gdy zbierzesz jeszcze kilka punktów danych (puste kółka):
Okazuje się, że związek nie został jednak dobrze uchwycony przez hipotetyczny związek. Prognozy w regionie ekstrapolowanym są dalekie. Nawet jeśli odgadłeś precyzyjną funkcję, która poprawnie opisuje tę nieliniową zależność, twoje dane nie rozciągały się na wystarczający zakres, aby dobrze uchwycić nieliniowość, więc być może byłeś dość daleko. Zauważ, że jest to problem nie tylko dla regresji liniowej, ale dla dowolnej relacji - dlatego ekstrapolacja jest uważana za niebezpieczną.
Prognozy w interpolowanym regionie są również niepoprawne z powodu braku nieliniowości w dopasowaniu, ale ich błąd przewidywania jest znacznie niższy. Nie ma gwarancji, że nie będziesz mieć nieoczekiwanego związku między swoimi punktami (tj. Regionem interpolacji), ale generalnie jest to mniej prawdopodobne.
Dodam, że ekstrapolacja nie zawsze jest okropnym pomysłem - jeśli ekstrapolujesz trochę poza zasięgiem swoich danych, prawdopodobnie nie pomylisz się (choć jest to możliwe!). Starożytni, którzy nie mieli dobrego naukowego modelu świata, nie byliby w błędzie, gdyby przewidywali, że słońce wstanie następnego dnia i następnego dnia (choć pewnego dnia w przyszłości nawet to się nie powiedzie).
A czasami, ekstrapolacja może być nawet pouczające - na przykład, proste krótkoterminowe ekstrapolacji z wykładniczym wzrostem atmosferycznego CO były wystarczająco dokładne w ciągu ostatnich kilku dekad. Jeśli byłeś studentem, który nie miał specjalistycznej wiedzy naukowej, ale chciał szorstkiej, krótkoterminowej prognozy, dałoby to dość rozsądne wyniki. Ale im dalej od twoich danych dokonujesz ekstrapolacji, tym bardziej prawdopodobne jest, że twoje przewidywania zawiodą i zawiodą katastrofalnie, jak to bardzo ładnie opisano w tym wielkim wątku: Co jest złego w ekstrapolacji? (dzięki @JMisnotastatistician za przypomnienie mi o tym).2
Edycja na podstawie komentarzy: interpolując lub ekstrapolując, zawsze najlepiej jest mieć trochę teorii, która spełni oczekiwania. Jeśli konieczne jest modelowanie bez teorii , ryzyko interpolacji jest zwykle mniejsze niż ryzyko ekstrapolacji. To powiedziawszy, ponieważ wraz ze wzrostem odległości między punktami danych interpolacja staje się coraz bardziej obarczona ryzykiem.