Jeśli chodzi o twoje pierwsze pytanie, należy zdefiniować „standard” lub potwierdzić, że „model kanoniczny” został stopniowo ustanowiony. Jak wskazano w komentarzu, wydaje się, że przynajmniej sposób korzystania z IRWLS jest raczej standardowy.
Jeśli chodzi o twoje drugie pytanie, „mapowanie skurczu w prawdopodobieństwie” może być powiązane (choć nieformalnie) ze zbieżnością „rekurencyjnych algorytmów stochastycznych”. Z tego, co przeczytałem, istnieje ogromna literatura na ten temat głównie w inżynierii. W ekonomii używamy jej trochę, zwłaszcza przełomowych prac Lennarta Ljunga - pierwszą pracą był Ljung (1977) - która pokazała, że zbieżność (lub nie) rekurencyjnego algorytmu stochastycznego może być określona przez stabilność (lub not) powiązanego równania różniczkowego zwyczajnego.
(co zostało ponownie opracowane po owocnej dyskusji z PO w komentarzach)
Konwergencja
Użyję jako odniesienia Sabre Elaydi „An Introduction to Difference Equations”, 2005, 3d ed.
Analiza jest uwarunkowana pewną próbką danych, więc są traktowane jako ustalone. x′s
Warunek pierwszego rzędu minimalizacji funkcji celu, postrzegany jako funkcja rekurencyjna ,
m ( k + 1 ) = N ∑ i = 1 v i [ m ( k ) ] x i ,m
m(k+1)=∑i=1Nvi[m(k)]xi,vi[m(k)]≡wi[m(k)]∑Ni=1wi[m(k)][1]
ma stały punkt (argmin funkcji celu). Według Twierdzenia 1.13 s. 27–28 Elaydiego, jeśli pierwsza pochodna w odniesieniu do RHS z , oceniona w punkcie stałym , oznacza to , jest mniejsza niż jedność w wartość bezwzględna, wtedy jest asymptotycznie stabilny (AS). Co więcej, w Twierdzeniu 4.3 p.179 rozumiemy, że oznacza to również, że punktem stałym jest jednolicie AS (UAS).
„Asymptotycznie stabilny” oznacza, że dla pewnego zakresu wartości wokół stałego punktu sąsiedztwo , niekoniecznie małe, punkt stały jest atrakcyjny[ 1 ] m ∗ A ′ ( m ∗ ) m ∗ ( m ∗ ± γ ) γ = ∞m[1]m∗A′(m∗)m∗
(m∗±γ), a więc jeśli algorytm podaje wartości w tym sąsiedztwie, zbiegnie się. Właściwość „jednolita” oznacza, że granica tego sąsiedztwa, a tym samym jego wielkość, jest niezależna od początkowej wartości algorytmu. Punkt stały staje się globalnie UAS, jeśli .
Więc w naszym przypadku, jeśli to udowodnimyγ=∞
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
udowodniliśmy właściwość UAS, ale bez globalnej konwergencji. Następnie możemy spróbować ustalić, czy sąsiedztwo przyciągania jest w rzeczywistości całymi rozszerzonymi liczbami rzeczywistymi, lub, że konkretna wartość początkowa, jaką stosuje PO, jak wspomniano w komentarzach (i jest to standard w metodologii IRLS), tj. Średnia z próby z „s, , zawsze należy do dzielnicy przyciągania punktu stałego.ˉ xxx¯
pochodną
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
Następnie
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
i
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
mamy
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
Wstawiamy to do mamy[3]
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
Jest to warunek, który musi być spełniony, aby punktem stałym był UAS. Ponieważ w naszym przypadku funkcja kary jest wypukła, zaangażowane kwoty są dodatnie. Zatem warunek jest równoważny[4]
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
Jeśli jest funkcją straty Huberta, to mamy gałąź kwadratową ( ) i liniową ( ),ρ(|xi−m|)ql
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
i
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Ponieważ nie wiemy, ile zumieść nas w gałęzi kwadratowej, a ile w liniowej, rozkładamy warunek jako ( )|xi−m∗|[5]Nq+Nl=N
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
który trzyma. Zatem dla funkcji utraty Hubera stały punkt algorytmu jest jednakowo asymptotycznie stabilny, niezależnie od . Zauważmy, że pierwsza pochodna jest mniejsza niż jedność w wartości bezwzględnej dla dowolnego , nie tylko punktu stałego. xm
To, co powinniśmy teraz zrobić, to albo udowodnić, że właściwość UAS jest również globalna, albo, że jeśli to należy do sąsiedztwa przyciągania .m(0)=x¯m(0)m∗