test statystyczny, aby sprawdzić, czy związek jest liniowy czy nieliniowy

Mam przykładowy zestaw danych w następujący sposób:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

wprowadź opis zdjęcia tutaj

Na podstawie rysunku można zasugerować, że między pewnym zakresem „objętości” i „mocy” związek jest liniowy, a gdy „objętość” staje się stosunkowo mała, związek staje się nieliniowy. Czy istnieje statystyczny test ilustrujący to?

W odniesieniu do niektórych zaleceń przedstawionych w odpowiedziach na PO:

Pokazany tutaj przykład jest po prostu przykładem, zestaw danych, który mam, wygląda podobnie do relacji widzianej tutaj, chociaż jest głośniejszy. Analiza, którą do tej pory przeprowadziłem, pokazuje, że kiedy analizuję objętość określonej cieczy, moc sygnału drastycznie wzrasta, gdy jest mała objętość. Powiedzmy, że miałem tylko środowisko, w którym objętość wynosiła od 15 do 20, prawie wyglądałoby to na relację liniową. Jednak zwiększając zakres punktów, tj. Mając mniejsze objętości, widzimy, że zależność wcale nie jest liniowa. Teraz szukam porady statystycznej, jak statystycznie to pokazać. Mam nadzieję, że to ma sens.

— KatyB
źródło

Tutaj dzieje się kilka rzeczy. Po pierwsze, oczywiście związek będzie wyglądał liniowo, pod warunkiem, że zakresy zmiennych są odpowiednio ograniczone. Po drugie, heteroscedastyczność danych jest prawie tak samo istotną cechą, jak relacja nieliniowa: rozproszenie jest większe przy dużych objętościach i niskich mocach niż przy małych objętościach i dużych mocach. Niezależnie od tego, co dokładnie chcesz przetestować? Liniowość związku w całym zakresie?

— whuber

Faktycznie, chciałbym cofnąć się uwaga o heteroskedastyczności: fabuła daje wygląd z takimi, ale to złudzenie spowodowane przez stosunkowo stromych zboczach w niższych wolumenów. (Objętość pod względem mocy ma jednak niezwykle heteroscedastyczny związek). Gdy stwierdzimy, że zmiana mocy nie jest heteroscedastyczna, wyklucza to niektóre rodzaje analiz (nie chcielibyśmy stosować nieliniowych przekształceń mocy) i sugeruje faworyzowanie innych (takich jak nieliniowe najmniejsze kwadraty lub uogólniony model liniowy), po wyraźnym ustaleniu nieliniowości.

— whuber

Dodałem teraz krótki opis problemu. Dziękuję za dotychczasowe komentarze, są one bardzo mile widziane i pomagają mi przemyśleć problem.

— KatyB

Dlaczego nie przetestować efektu kwadratowego?

— AdamO

@ Simon Nie użyłem żadnego testu, ale mimo to możesz zobaczyć, że jest to homoscedastyczne, wykreślając typowy rozmiar reszt względem objętości. Oto niektóre Rkodu:

plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10),          function(d) summary(lm(Power ~ Volume, data=d))$sigma),      xlab="Volume range", ylab="Residual SD",      ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")

. Pokazuje prawie stały rozmiar resztkowy w pełnym zakresie.

— whuber

Odpowiedzi:

Jest to w zasadzie problem z wyborem modelu. Zachęcam do wybrania zestawu fizycznie wiarygodnych modeli (liniowy, wykładniczy, może nieciągły związek liniowy) i do wyboru najlepszego używa Kryterium Informacyjnego Akaike lub Kryterium Bayesowskiego, aby wybrać najlepszy - mając na uwadze problem heteroscedastyczności, na który wskazuje @whuber.

— Drew Steen
źródło

Czy próbowałeś google google !? Jednym ze sposobów jest dopasowanie wyższej mocy lub innych nieliniowych warunków do twojego modelu i sprawdzenie, czy ich współczynniki znacznie różnią się od 0.

Istnieje kilka przykładów tutaj http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

W twoim przypadku możesz podzielić zestaw danych na dwie sekcje, aby przetestować nieliniowość dla objętości <5 i liniowość dla objętości> 5.

Innym problemem, jaki masz, jest to, że Twoje dane są heteroskedastyczne, co narusza założenie normalności dla danych regresji. Podany link podaje również przykłady testowania tego.

— Simon Hayward
źródło

Link jest zepsuty.

— Jatin

Sugeruję użycie regresji nieliniowej, aby dopasować jeden model do wszystkich danych. Po co wybierać dowolny wolumen i dopasowywać jeden model do woluminów mniejszych niż ten, a drugi model do większych woluminów? Czy jest jakikolwiek powód, poza wyglądem na rysunku, aby użyć 5 jako ostrego progu? Czy naprawdę wierzysz, że po określonym progu objętości idealna krzywa jest liniowa? Czy nie jest bardziej prawdopodobne, że zbliża się poziomo wraz ze wzrostem głośności, ale nigdy nie jest całkiem liniowy?

Oczywiście wybór narzędzia do analizy musi zależeć od pytań naukowych, na które próbujesz odpowiedzieć, i twojej wcześniejszej wiedzy o systemie.

— Harvey Motulsky
źródło