Różnica między analizą regresji a dopasowaniem krzywej


17

Czy ktoś może mi wyjaśnić prawdziwą różnicę między analizą regresji a dopasowaniem krzywej (liniową i nieliniową), podając przykład, jeśli to możliwe?

Wydaje się, że obie próbują znaleźć związek między dwiema zmiennymi (zależne vs niezależne), a następnie określić parametr (lub współczynnik) związany z proponowanymi modelami. Na przykład, jeśli mam zestaw danych, takich jak:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

Czy ktoś może zasugerować wzór korelacji między tymi dwiema zmiennymi? Mam problem ze zrozumieniem różnicy między tymi dwoma podejściami. Jeśli wolisz wesprzeć swoją odpowiedź innymi zestawami danych, to jest OK, ponieważ wydaje się, że trudno jest je dopasować (być może tylko dla mnie).

Powyższy zestaw danych przedstawia i y osi o charakterystyki roboczej odbiorcy (ROC), gdzie Y jest rzeczywisty wskaźnik pozytywny (TPR), a x jestxyyx fałszywie dodatnich (FPR).

Próbuję dopasować krzywą lub przeprowadzić analizę regresji zgodnie z moim pierwotnym pytaniem, jeszcze nie jestem pewien, spośród tych punktów, aby oszacować TPR dla dowolnego konkretnego FPR (lub odwrotnie).

Po pierwsze, czy naukowo dopuszczalne jest znalezienie takiej funkcji dopasowania krzywej między dwiema zmiennymi niezależnymi (TPR i FPR)?

Po drugie, czy naukowo dopuszczalne jest znalezienie takiej funkcji, jeśli wiem, że rozkłady rzeczywistych przypadków ujemnych i rzeczywistych przypadków dodatnich nie są normalne?


1
Terminy (niestety) są używane w różny sposób przez różne osoby i w różnych kontekstach. Czy możesz podać link do / podać przykład, w którym ludzie je rozróżniają?
Gung - Przywróć Monikę

Właśnie to próbuję rozgryźć, jak się różnią i jak mogę je rozróżnić.
Ali Sultan

1
W porządku, ale czy ktoś powiedział ci, że mieli być inni?
Gung - Przywróć Monikę

2
Na tej stronie niektórzy używali „dopasowania krzywej” w sensach, których nie można uznać za regresję. Na przykład niektóre z nich postrzegają szacowanie gęstości jako formę „dopasowania krzywej” do histogramu.
whuber

Odpowiedzi:


22

Wątpię, czy istnieje wyraźne i konsekwentne rozróżnienie między naukami i dziedzinami o statystycznym nastawieniu między regresją a dopasowaniem krzywej .

Regresja bez kwalifikacji oznacza regresję liniową i oszacowanie metodą najmniejszych kwadratów. To nie wyklucza innych lub szerszych zmysłów: w istocie, kiedy zezwolisz na logit, Poissona, ujemną regresję dwumianową itp., Itp., Trudniej jest dostrzec, które modelowanie w pewnym sensie nie jest regresją.

Dopasowanie krzywej dosłownie sugeruje krzywą, którą można narysować na płaszczyźnie lub przynajmniej w małej przestrzeni. Regresja nie jest tak ograniczona i może przewidywać powierzchnie w przestrzeni wielowymiarowej.

Dopasowanie krzywej może, ale nie musi, wykorzystywać regresję liniową i / lub najmniejszych kwadratów. Może odnosić się do dopasowania wielomianu (szeregu mocy) lub zestawu terminów sinus i cosinus lub w inny sposób faktycznie kwalifikować się jako regresja liniowa w kluczowym znaczeniu dopasowania formy funkcjonalnej liniowej w parametrach. Rzeczywiście, dopasowanie krzywej, gdy regresja nieliniowa jest również regresją.

Termin dopasowanie krzywej może być użyty w dyskredytującym, uwłaczającym, deprecjonującym lub lekceważącym sensie („to tylko dopasowanie krzywej!”) Lub (prawie całkowicie odwrotnie) może odnosić się do dopasowania określonej krzywej starannie dobranej z konkretną fizyczną (biologiczną, ekonomiczne, cokolwiek) uzasadnienie lub dostosowane do konkretnych rodzajów zachowania początkowego lub ograniczającego (np. bycie zawsze pozytywnym, ograniczonym w jednym lub obu kierunkach, monotonicznym, z przegięciem, z jednym punktem zwrotnym, oscylacyjnym itp.).

Jednym z kilku niejasnych zagadnień jest to, że ta sama funkcjonalna forma może być w najlepszym razie empiryczna w niektórych okolicznościach, a doskonała teoria w innych. Newton nauczał, że trajektorie pocisków mogą być paraboliczne i dlatego w naturalny sposób dopasowywane przez kwadratyków, podczas gdy kwadratowe dopasowanie do zależności od wieku w naukach społecznych jest często tylko krówką, która pasuje do pewnej krzywizny danych. Rozkład wykładniczy jest naprawdę dobrym przybliżeniem dla izotopów promieniotwórczych i czasami niezbyt szalonym przypuszczeniem, w jaki sposób wartości ziemi spadają wraz z odległością od centrum.

Twój przykład nie otrzymuje ode mnie żadnych wyraźnych domysłów. Chodzi przede wszystkim o to, że przy bardzo małym zestawie danych i dokładnie bez informacji o tym, jakie są zmienne lub jak powinny się zachowywać, sugerowanie formy modelu byłoby nieodpowiedzialne lub głupie. Być może dane powinny gwałtownie wzrosnąć od (0, 0), a następnie zbliżyć się (1, 1), a może coś innego. Ty nam powiedz!

Uwaga. Ani regresja, ani dopasowanie krzywej nie ogranicza się do pojedynczych predyktorów lub pojedynczych parametrów (współczynników).


2
„Dopasowanie krzywej” kojarzy mi się z czymś teoretycznym (np. Lowess). Ekonomiści czasami wyśmiewają dopasowanie funkcji teoretycznej do „tworzenia wykresów”, co brzmi podobnie do niektórych zastosowań dopasowania krzywej. Myślę, że to (np. Lowess) ma zarówno zalety, jak i wady, jeśli jest właściwie rozumiane. Trudno jednak zrozumieć, jak ktoś rozumiał te terminy wyraźnie bez szerszego kontekstu.
Gung - Przywróć Monikę

1
@gung Myślę, że istnieje podobne częściowo żartobliwe, częściowo poważne zastosowanie w kilku naukach przyrodniczych (i nienaturalnych). Jednym z problemów jest to, że biorąc pod uwagę wystarczającą liczbę parametrów, koniecznie masz dużo miejsca na poruszanie się. Przypominają mi się modele szeregów czasowych, które pozwalają nie tylko ARIMA, ale także sinusoidalne warunki i kroki, rampy i skoki, gdziekolwiek dane sugerują.
Nick Cox,

Po drugie @ dopasowanie, dopasowanie krzywej ma przynajmniej nieparametryczną konotację, przynajmniej dla mnie.
Christoph Hanck

1
@ChristophHanck Proszę nie wprowadzaj w to słowa „nieparametryczny”! Dyskusja jest już dość mętna!
Nick Cox,

1
@gung: Myśląc o wygładzaniu splajnów i ogólnie metodach RKHS jako kręgosłupa „dopasowania krzywej”, na przykład uważam, że „dopasowanie krzywej” jest o wiele bardziej teoretyczne niż „regresja”. (+1 do NickCox za tę odpowiedź)
usεr11852 mówi Przywróć Monic

8

Oprócz doskonałej odpowiedzi @ NickCox (+1), chciałem podzielić się subiektywnym wrażeniem na temat niejasnej terminologii . Myślę, że dość subtelna różnica między tymi dwoma terminami polega na tym, co następuje. Z jednej strony regresja często, jeśli nie zawsze, oznacza rozwiązanie analityczne (odniesienie do regresorów oznacza określenie ich parametrów , stąd mój argument o rozwiązaniu analitycznym). Z drugiej strony dopasowanie krzywej niekoniecznie oznacza stworzenie rozwiązania analitycznego, a IMHO często może być i jest stosowane jako podejście eksploracyjne .


2
Czy coś z rozwiązaniem analitycznym nie może być użyte również z powodów eksploracyjnych? Nie sądzę, że dostaję sprzeciw, który czynisz.
ameba mówi Przywróć Monikę

@amoeba: Rozwiązania analityczne z pewnością można również wykorzystać w badaniach eksploracyjnych. Chodzi mi jednak o najbardziej popularną dorozumianą istotę tych terminów.
Aleksandr Blekh
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.