Pojedynczy błąd gradientu w nls z prawidłowymi wartościami początkowymi

Próbuję dopasować linię + krzywą wykładniczą do niektórych danych. Na początek próbowałem to zrobić na niektórych sztucznych danych. Funkcja to: Jest to efektywnie krzywa wykładnicza o przekroju liniowym, a także dodatkowy parametr przesunięcia poziomego ( m ). Jednak gdy używam funkcji R, pojawia się przerażający błąd „ pojedyncza macierz gradientu przy początkowych oszacowaniach parametrów ”, nawet jeśli używam tych samych parametrów, których użyłem do wygenerowania danych. Próbowałem różnych algorytmów, różnych wartości początkowych i próbowałem użyć

y = a + b \cdot r^{(x - m)} + c \cdot x

$y=a+b\cdot r^{(x-m)}+c\cdot x$ nls()
optimaby zminimalizować resztkową sumę kwadratów, wszystko bezskutecznie. Czytałem, że przyczyną tego może być nadmierna parametryzacja formuły, ale nie sądzę, że jest (prawda?)
Czy ktoś ma jakieś sugestie dotyczące tego problemu? Czy to tylko niezręczny model?

Krótki przykład:

#parameters used to generate the data
reala=-3
realb=5
realc=0.5
realr=0.7
realm=1
x=1:11 #x values - I have 11 timepoint data
#linear+exponential function
y=reala + realb*realr^(x-realm) + realc*x
#add a bit of noise to avoid zero-residual data
jitter_y = jitter(y,amount=0.2)
testdat=data.frame(x,jitter_y)

#try the regression with similar starting values to the the real parameters
linexp=nls(jitter_y~a+b*r^(x-m)+c*x, data=testdat, start=list(a=-3, b=5, c=0.5, r=0.7, m=1), trace=T)

Dzięki!

r nonlinear-regression nls

— steiny
źródło

Wskazówka: spójrz na współczynnik (dla ustalonego ) i zauważ, że ma jednowymiarową rodzinę rozwiązań z .

r^{x}

$r^x$

r

$r$

b r^{- m} = constant

$b r^{-m} = \text{constant}$

(b, m)

$(b,m)$

b = r^{m} \cdot constant

$b = r^m \cdot \text{constant}$

— whuber

To nie jest zidentyfikowany model, chyba że lub są w jakiś sposób ograniczone. Myślę, że wymaganie wykona zadanie.

b

$b$

r

$r$

r \in (0, 1)

$r \in (0,1)$

— Makro

Odpowiedzi:

Ostatnio mnie to ugryzło. Moje intencje były takie same, stwórz sztuczny model i przetestuj go. Głównym powodem jest ten podany przez @whuber i @marco. Taki model nie został zidentyfikowany. Aby to zobaczyć, pamiętaj, że NLS minimalizuje funkcję:

\sum_{ja = 1}^{n} (y_{ja} - za - b r^{x_{ja} - m} - do x_{ja})^{2)}

$\sum_{i=1}^n(y_i-a-br^{x_i-m}-cx_i)^2$

Powiedzmy, że jest minimalizowany przez zestaw parametrów $(a,b,m,r,c)$ . Nietrudno zauważyć, że zestaw parametrów $(a,br^{-m},0,r,c)$ da tę samą wartość funkcji, którą należy zminimalizować. W związku z tym model nie został zidentyfikowany, tzn. Nie ma unikalnego rozwiązania.

Nietrudno też zrozumieć, dlaczego gradient jest osobliwy. Oznaczać

fa (za, b, r, m, do, x) = za + b r^{x - m} + do x

$f(a,b,r,m,c,x)=a+br^{x-m}+cx$

Następnie

\frac{\partial fa}{\partial b} = r^{x - m}

$\frac{\partial f}{\partial b}=r^{x-m}$

\frac{\partial fa}{\partial m} = - b \ln r r^{x - m}

$\frac{\partial f}{\partial m}=-b\ln rr^{x-m}$

i otrzymujemy to dla wszystkich $x$

b \ln r \frac{\partial fa}{\partial b} + \frac{\partial fa}{\partial m} = 0.

$b\ln r\frac{\partial f}{\partial b}+\frac{\partial f}{\partial m}=0.$

Stąd macierz

\begin{aligned} (\begin{matrix} \nabla fa (x_{1}) \\ ⋮ \\ \nabla fa (x_{n}) \end{matrix}) \end{aligned}

$\begin{align} \begin{pmatrix} \nabla f(x_1)\\\\ \vdots\\\\ \nabla f(x_n) \end{pmatrix} \end{align}$

nie będzie miał pełnej rangi i dlatego nlsnada osobliwy gradientowy komunikat.

Spędziłem ponad tydzień szukając błędów w moim kodzie gdzie indziej, dopóki nie zauważyłem, że główny błąd był w modelu :)

— mpiktas
źródło

Wiem, że to stare, ale zastanawiam się, czy to oznacza, że nls nie może być stosowany w modelach, których nie można zidentyfikować? Na przykład sieć neuronowa?

— Hrabia Zero,

duża szansa, wiem, ale czy mógłbyś to rozbić dla mniej pamiętających ludzi? :). jakie jest zatem rozwiązanie problemu PO? Zrezygnować i iść do domu?

— theforestecologist

b \cdot r^{x - m}

$b\cdot r^{x-m}$

β \cdot r^{x}

$\beta \cdot r^x$

m

$m$

β

$\beta$

β = b \cdot r^{- m}

$\beta = b\cdot r^{-m}$

@CountZero, w zasadzie tak, zwykłe metody optymalizacji zawiodłyby, gdyby parametry nie zostały zidentyfikowane. Sieci neuronowe omijają ten problem, dodając dodatkowe przeciwwskazania i używając innych interesujących sztuczek.

— mpiktas

\frac{\partial f}{\partial m} = - b \ln r r^{x - m}

$\frac {\partial f}{\partial m} = -b \ln{r}\ r^{x-m}$

Powyższe odpowiedzi są oczywiście poprawne. Po co warto, oprócz podanych wyjaśnień, jeśli próbujesz tego na sztucznym zbiorze danych, zgodnie ze stroną pomocy nls pod adresem : http://stat.ethz.ch/R-manual/R-patch/ biblioteka / stats / html / nls.html

R's nls nie będzie w stanie sobie z tym poradzić. Strona pomocy wyraźnie stwierdza:

Ostrzeżenie

Nie używaj nls na sztucznych „zerowych” danych.

Funkcja nls wykorzystuje kryterium zbieżności z przesunięciem względnym, które porównuje niedokładność liczbową przy bieżących oszacowaniach parametrów z resztkową sumą kwadratów. Działa to dobrze na danych formularza

y = f (x, θ) + eps

(z var (eps)> 0). Nie wskazuje konwergencji danych w formularzu

y = f (x, θ)

ponieważ kryterium sprowadza się do porównania dwóch składników błędu zaokrąglenia. Jeśli chcesz przetestować nls na sztucznych danych, dodaj składnik szumu, jak pokazano w poniższym przykładzie.

Zatem brak hałasu == brak korzyści dla nls R.

— B_D_Dubbya
źródło

Witamy na stronie @B_D_Dubbya. Pozwoliłem sobie sformatować twoją odpowiedź, mam nadzieję, że nie masz nic przeciwko. Więcej informacji na temat edytowania odpowiedzi na CV znajdziesz tutaj .

— gung - Przywróć Monikę

Zdaję sobie sprawę z tego problemu - stąd użycie funkcji „fluktuacji”, aby dodać trochę hałasu

— steiny