Wygładzanie - kiedy go używać, a kiedy nie?

Istnieje dość stary post na blogu Williama Briggsa, który analizuje pułapki wygładzania danych i przenoszenia tych wygładzonych danych do analizy. Kluczowym argumentem jest mianowicie:

Jeśli w chwili szaleństwa robisz gładkie dane szeregów czasowych i używasz ich jako danych wejściowych do innych analiz, znacznie zwiększasz prawdopodobieństwo oszukiwania się! Wynika to z faktu, że wygładzanie indukuje fałszywe sygnały - sygnały, które wyglądają realnie w przypadku innych metod analitycznych. Bez względu na to, czy będziesz zbyt pewny swoich wyników końcowych!

Jednak staram się znaleźć wyczerpujące dyskusje na temat tego, kiedy należy wygładzić, a kiedy nie.

Czy wygładzanie się podczas korzystania z tych wygładzonych danych jako danych wejściowych do innych analiz jest złe, czy może występują inne sytuacje, w których wygładzanie nie jest zalecane? I odwrotnie, czy są sytuacje, w których zaleca się wygładzenie?

time-series smoothing

— NickB2014
źródło

Większość zastosowań analizy szeregów czasowych jest pewnego rodzaju wygładzaniem, nawet jeśli nie jest to tak opisane. Wygładzanie może być używane jako urządzenie eksploracyjne lub podsumowujące - w niektórych dziedzinach, które jest nawet główną lub jedyną stosowaną metodą - lub do usuwania funkcji, które w jakimś celu są uważane za niedogodności lub drugorzędne znaczenie.

— Nick Cox

Oświadczenie: Nie przeczytałem całego cytowanego posta na blogu. Nie mogłem ominąć elementarnych literówek („seria czasów”, „Monte Carol”), a ich ton i styl nie były atrakcyjne. Ale nie radziłbym próbować nauczyć się zasad analizy szeregów czasowych lub ogólnie statystyk za pośrednictwem czyjegoś bloga.

— Nick Cox

@NickCox zgodził się, a zwłaszcza nie z bloga, który wydaje się mieć topór.

— Hong Ooi

@HongOoi Tak! Usunąłem niektóre frazy wyboru z szkicu mojego komentarza, który mógł wydawać się nie mniej uparty niż sam blog.

— Nick Cox

Wziąłbym wszystko, co Briggs pisze ziarenkiem soli.

— Momo

Odpowiedzi:

Wygładzanie wykładnicze jest klasyczną techniką stosowaną w nieszablonowym prognozowaniu szeregów czasowych. Tak długo, jak używasz go tylko do bezpośredniego prognozowania i nie używasz dopasowanych dopasowań w próbce jako danych wejściowych do innego eksploracji danych lub algorytmu statystycznego, krytyka Briggsa nie ma zastosowania. (W związku z tym jestem sceptycznie nastawiony do wykorzystywania go do „wygładzania danych do prezentacji”, jak mówi Wikipedia - może to być mylące, ukrywając wygładzoną zmienność).

Oto wprowadzenie do wygładzania wykładniczego.

A oto (10-letni, ale wciąż aktualny) artykuł przeglądowy.

EDYCJA: wydaje się, że istnieją wątpliwości co do zasadności krytyki Briggsa, prawdopodobnie pod wpływem jej opakowania . W pełni zgadzam się, że ton Briggsa może być szorstki. Chciałbym jednak zilustrować, dlaczego uważam, że ma on rację.

Poniżej symuluję 10 000 par szeregów czasowych, po 100 obserwacji każda. Wszystkie serie to biały szum, bez żadnej korelacji. Zatem uruchomienie standardowego testu korelacji powinno dać wartości p, które są równomiernie rozłożone na [0,1]. Jak to się dzieje (histogram po lewej stronie poniżej).

Załóżmy jednak, że najpierw wygładzamy każdą serię i stosujemy test korelacji do wygładzonych danych. Pojawia się coś zaskakującego: ponieważ usunęliśmy wiele zmienności z danych, otrzymujemy wartości p, które są zdecydowanie zbyt małe . Nasz test korelacji jest bardzo stronniczy. Będziemy więc zbyt pewni związku między oryginalną serią, co mówi Briggs.

Pytanie naprawdę zależy od tego, czy wykorzystujemy wygładzone dane do prognozowania, w którym to przypadku wygładzanie jest poprawne, czy też uwzględniamy je jako dane wejściowe w pewnym algorytmie analitycznym, w którym to przypadku usunięcie zmienności będzie symulować większą pewność naszych danych niż jest to uzasadnione. Ta nieuzasadniona pewność danych wejściowych przenosi się na wyniki końcowe i należy ją uwzględnić, w przeciwnym razie wszystkie wnioski będą zbyt pewne. (I oczywiście otrzymamy również zbyt małe przedziały prognozowania, jeśli użyjemy modelu opartego na „zawyżonej pewności” do prognozowania).

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

wartości p

— S. Kolassa - Przywróć Monikę
źródło

Za dobrą analizę szeregów czasowych uznałbym to za aksjomatyczne, ponieważ nie pokazano gładkiej powierzchni bez pokazania surowych danych.

— Nick Cox

Twierdzenie, że wygładzanie jest nieodpowiednie dla analizy modelowania, skazuje go na wyższy średni błąd kwadratowy, niż mógłby w innym przypadku. Średni błąd kwadratowy lub błąd MSE można rozłożyć na trzy składniki, kwadrat wartości zwanej `` stronniczością '', wariancję i pewien błąd nieredukowalny. (Jest to pokazane w poniższych cytatach.) Modele nadmiernie wygładzone mają wysokie odchylenie, nawet jeśli mają niską wariancję, a zbyt szorstkie modele mają duże wariancje i niskie odchylenie.

Nie ma w tym nic filozoficznego. Jest to charakterystyka matematyczna. Nie zależy to od charakteru hałasu ani od charakteru systemu.

Widzieć:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Ma to pochodzenie rozkładu.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei robi to samo w inny sposób i wprowadza to, co dzieje się, gdy ktoś próbuje przewidzieć.)

Klasyczne statystyki prawie zawsze nalegały na obiektywne szacunki. W 1955 r. Statystyk Charles Stein ze Stanford wykazał, że istniały kombinacje obiektywnych estymatorów, które miały niższe MSE dla ważnych szczególnych przypadków, w szczególności to, co nazwano ESTIMATORAMI JAMES-STEINA. Bradley Efron napisał bardzo przystępny tekst o tej rewolucji wglądu: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

— Jan Galkowski
źródło