Jaki jest związek, jeśli w ogóle, między filtrowaniem Kalmana a (powtarzaną, jeśli to konieczne) regresją wielomianową metodą najmniejszych kwadratów?
Jaki jest związek, jeśli w ogóle, między filtrowaniem Kalmana a (powtarzaną, jeśli to konieczne) regresją wielomianową metodą najmniejszych kwadratów?
Odpowiedzi:
1. Istnieje różnica pod względem kryteriów optymalności
Filtr Kalmana jest estymatorem liniowym. Jest to liniowy optymalny estymator - tzn. Oblicza parametry modelubędąceprzedmiotem zainteresowania na podstawie obserwacji pośrednich, niedokładnych i niepewnych.
Ale w jakim sensie optymalny? Jeśli cały szum jest gaussowski, filtr Kalmana minimalizuje średni błąd kwadratowy oszacowanych parametrów. Oznacza to, że gdy hałas leżący u podłoża NIE jest gaussowski, obietnica już nie dotrzymuje. W przypadku nieliniowej dynamiki wiadomo, że problem estymacji stanu staje się trudny. W tym kontekście żaden schemat filtrowania nie przewyższa wszystkich innych strategii. W takim przypadku estymatory nieliniowe mogą być lepsze, jeśli mogą lepiej modelować system z dodatkowymi informacjami. [Patrz Ref 1-2]
Regresja wielomianowa jest formą regresji liniowej, w której związek między zmienną niezależną x a zmienną zależną y modeluje się jako wielomian n-tego rzędu.
Należy zauważyć, że chociaż regresja wielomianowa pasuje do danych model nieliniowy, wszystkie modele są liniowe z punktu widzenia estymacji, ponieważ funkcja regresji jest liniowa pod względem nieznanych parametrów . Jeśli traktujemy jako różne zmienne, regresję wielomianową można również traktować jako wielokrotną regresję liniową .
Modele regresji wielomianowej są zwykle dopasowane przy użyciu metody najmniejszych kwadratów. Również w metodzie najmniejszych kwadratów minimalizujemy średni błąd kwadratowy. Metoda najmniejszych kwadratów minimalizuje wariancję obiektywnych estymatorów współczynników w warunkach twierdzenia Gaussa-Markowa . Twierdzenie to stwierdza, że zwykłe najmniejsze kwadraty (OLS) lub liniowe najmniejsze kwadraty to najlepszy liniowy niezbadany estymator (NIEBIESKI) pod następującymi warunkami:
za. gdy błędy mają zero, tj.
b. mają równe wariancje tj.
c. a błędy są nieskorelowane, tj.
UWAGA: w tym przypadku błędy nie muszą być gaussowskie ani nie muszą być IID. To musi być tylko nieskorelowane.
2. Filtr Kalmana jest ewolucją estymatorów od najmniejszych kwadratów
W 1970 r. HW Sorenson opublikował artykuł IEEE Spectrum zatytułowany „Szacowanie metodą najmniejszych kwadratów: od Gaussa do Kalmana ” . [Patrz Ref. 3]. Jest to przełomowy artykuł, który zapewnia doskonały wgląd w to, jak oryginalny pomysł Gaussa na najmniejszych kwadratów do współczesnego współczesnego estymatory takie jak Kalman.
Praca Gaussa nie tylko wprowadziła ramy najmniejszych kwadratów, ale w rzeczywistości była jedną z najwcześniejszych prac wykorzystujących pogląd probabilistyczny. Podczas gdy najmniejsze kwadraty ewoluowały w postaci różnych metod regresji, nastąpiła kolejna krytyczna praca, która wykorzystała teorię filtrów jako estymator.
Teorię filtrowania, która ma być stosowana do estymacji stacjonarnych szeregów czasowych, skonstruował Norbert Wiener w latach 40. XX wieku (podczas II wojny światowej) i opublikował w 1949 r., Który jest obecnie znany jako filtr Wienera. Praca została wykonana znacznie wcześniej, ale została sklasyfikowana dopiero po II wojnie światowej). Dyskretny ekwiwalent pracy Wienera został opracowany niezależnie przez Kołmogorowa i opublikowany w 1941 r. Dlatego teoria ta często nazywana jest teorią filtrowania Wienera-Kołmogorowa .
Tradycyjnie filtry są zaprojektowane dla pożądanej odpowiedzi częstotliwościowej. Jednak w przypadku filtra Wienera zmniejsza on ilość szumu obecnego w sygnale w porównaniu z oszacowaniem pożądanego sygnału bezszumowego. Filtr Weiner jest w rzeczywistości estymatorem. Jednak w ważnym artykule Levinson (1947) [patrz Ref. 6] wykazał, że w dyskretnym czasie całą teorię można sprowadzić do najmniejszych kwadratów, a zatem była bardzo prosta matematycznie. Zobacz Ref 4
Widzimy zatem, że praca Weinera dała nowe podejście do problemu szacowania; ewolucja od używania najmniejszych kwadratów do innej ugruntowanej teorii filtrów. Jednak krytycznym ograniczeniem jest to, że filtr Wienera zakłada, że wejścia są nieruchome. Można powiedzieć, że filtr Kalmana jest kolejnym krokiem w ewolucji, który odrzuca stacjonarne kryteria. W filtrze Kalmana model przestrzeni stanów może być dynamicznie dostosowywany do radzenia sobie z niestacjonarną naturą sygnału lub systemu.
Filtry Kalmana oparte są na liniowych układach dynamicznych w dyskretnej dziedzinie czasu. Dlatego jest w stanie poradzić sobie z sygnałem potencjalnie zmieniającym się w czasie, w przeciwieństwie do Wienera. Gdy artykuł Sorensona rysuje się równolegle między najmniejszymi kwadratami Gaussa a filtrem Kalmana jako
... dlatego widać, że podstawowe założenia Gaussa i Kalmana są identyczne, z wyjątkiem tego, że później pozwala to na zmianę stanu od czasu do czasu. Różnica wprowadza niebanalną modyfikację problemu Gaussa, ale taką, którą można leczyć w ramach najmniejszych kwadratów.
3. Są one takie same, jeśli chodzi o kierunek przyczynowości prognozowania; oprócz wydajności wdrażania
Czasami postrzega się, że filtr Kalmana służy do przewidywania przyszłych zdarzeń na podstawie danych z przeszłości, gdy regresja lub najmniejsze kwadraty wygładzają się w punktach końcowych. To nie jest do końca prawda. Czytelnicy powinni zauważyć, że zarówno estymatory (jak i prawie wszystkie estymatory, o których możesz pomyśleć) mogą wykonywać dowolną pracę. Możesz zastosować filtr Kalmana, aby zastosować wygładzanie Kalmana .
Podobnie modele predykcyjne mogą być również wykorzystane do przewidywania. Biorąc pod uwagę wektor szkolenia, i zastosowałeś i parametry modelu teraz dla innej próbki możemy ekstrapolować na podstawie modelu.
Dlatego obie metody mogą być stosowane w postaci wygładzania lub dopasowania (bez przyczynowego), a także do przyszłych prognoz (przypadek przyczynowy). Jednak kluczową różnicą jest implementacja, która jest znacząca. W przypadku regresji wielomianowej - cały proces musi zostać powtórzony, a zatem możliwe jest wdrożenie oszacowania przyczynowego, ale może to być kosztowne obliczeniowo. [Chociaż jestem pewien, że do tej pory trzeba przeprowadzić jakieś badania, aby iterować].
Z drugiej strony filtr Kalmana jest z natury rekurencyjny. Dlatego wykorzystanie go do prognozowania w przyszłości tylko na podstawie danych z przeszłości będzie bardzo wydajne.
Oto kolejna dobra prezentacja, która porównuje kilka metod: Ref 5
Bibliografia
Najlepsze wprowadzenie do filtra Kalmana - Dan Simon Kalman Filtrowanie programowania systemów wbudowanych CZERWIEC 2001 strona 72
Prezentacja: Lindsay Kleeman Zrozumienie i stosowanie filtrowania Kalmana
Prezentacja Simo Särkkä Od regresji liniowej po filtr Kalmana i Politechnikę Helsińską
Levinson, N. (1947). „Kryterium błędu RMS firmy Wiener w projektowaniu i prognozowaniu filtrów”. J. Math. Phys., V. 25, s. 261–278.
Różnica jest dość duża, ponieważ są to dwa zupełnie różne modele, których można użyć do rozwiązania tego samego problemu. Zróbmy krótkie podsumowanie.
Regresja wielomianowa jest sposobem aproksymacji funkcji. Mamy zestaw danych w postaci i chcemy ustalić zależność funkcjonalną, która często jest wyrażana przez oszacowanie gęstości prawdopodobieństwa . Przy założeniu, że jest Gaussowskim, otrzymujemy rozwiązanie najmniejszych kwadratów jako estymator maksymalnego prawdopodobieństwa.
Filtrowanie Kalmana jest specjalnym sposobem wnioskowania w liniowym układzie dynamicznym. LDS są szczególnym przypadkiem modeli przestrzeni stanów, w których zakładamy, że obserwowane dane są generowane przez zastosowanie transformacji liniowej do kolejnych kroków łańcucha Markowa nad losowymi zmiennymi Gaussa. Tak więc to, co faktycznie robimy, to model , który jest prawdopodobieństwem szeregu czasowego. Proces filtrowania Kalmana polega następnie na przewidywaniu następnej wartości szeregu czasowego, np. Maksymalizacji . Ale ten sam model może być wykorzystywany do wnioskowania na temat wygładzania, interpolacji i wielu innych rzeczy.
Zatem: regresja wielomianowa działa w przybliżeniu, filtrowanie Kalmana przewiduje przewidywanie szeregów czasowych. Dwie zupełnie różne rzeczy, ale przewidywanie szeregów czasowych jest szczególnym przypadkiem przybliżenia funkcji. Ponadto oba modele opierają całkiem różne założenia na obserwowanych danych.
Nie jestem ekspertem od filtrów Kalmana, jednak uważam, że tradycyjne filtrowanie Kalmana zakłada liniowy związek między obserwowalnymi danymi a danymi, które chcesz wnioskować, w przeciwieństwie do bardziej skomplikowanych filtrów , takich jak filtry Extended Kalman, które mogą przyjmować relacje nieliniowe.
Mając to na uwadze, uważam, że w przypadku tradycyjnego filtra Kalmana regresja liniowa online byłaby podobna do wydajności Kalmana. Można jednak zastosować regresję wielomianową, która zakłada nieliniowy związek, którego tradycyjny Kalman może nie być w stanie uchwycić.
Filtrowanie Kalmana daje wiele prognoz dla następnego stanu, w którym ekstrapolacja regresji nie byłaby możliwa.
Filtry Kalmana koncentrują się również na uwzględnianiu czynników szumowych (w oparciu o rozkłady Gaussa).
Wiele już powiedziano, pozwólcie, że dodam kilka komentarzy:
Filtry Kalmana są zastosowaniem Bayesowskiej teorii prawdopodobieństwa, co oznacza, że „informacje a priori” lub „wcześniejsza niepewność” mogą (i muszą) zostać określone. Jak rozumiem, nie dotyczy to tradycyjnego dopasowania najmniejszych kwadratów. Podczas gdy obserwacje (dane) mogą być ważone prawdopodobieństwami w dopasowaniu LSQ, wcześniejsza znajomość rozwiązania nie może być łatwo wzięta pod uwagę.
Podsumowując, rozwiązania znalezione przez KF będą zależeć od
a) model zapewniający „prognozy”
b) pomiary, które są „obserwacjami”
c) niepewność prognoz i obserwacji
d) a priori znajomość rozwiązania.
„wcześniejsza wiedza” jest określona jako wariant wstępnego przypuszczenia, ale nie jest istotna ani wykorzystywana w takim samym stopniu w każdym zastosowaniu.
Jak wspomniano wcześniej, powszechnym zastosowaniem KF jest redukcja hałasu podczas obserwacji w czasie rzeczywistym. Porównanie obserwacji z przewidywaniami modelu może pomóc oszacować „prawdziwy pomiar” pozbawiony hałasu. Ta popularna aplikacja powoduje, że KF nazywa się filtrem.
Wstępne domysły w tym przykładzie byłyby założonym rozwiązaniem w czasie zero, od którego rozpoczyna się KF, z powiązaną „wcześniejszą niepewnością”. Często będziesz mieć pewne nieznane parametry w modelu predykcyjnym, ale które mogą być ograniczone przez pomiary, tj. Są „obserwowalne”. KF poprawi swoje oszacowania zarówno tych parametrów, jak i „prawdziwych pomiarów” w miarę przemieszczania się w szeregach czasowych danych. W takim przypadku często określa się stan początkowy, aby po prostu skutkować spójną wydajnością filtrowania: definiowany jako faktyczne błędy oszacowania mieszczące się w granicach niepewności, które KF zapewnia swoim rozwiązaniem. W tym przykładzie wcześniejszą niepewność stanu początkowego można określić jako dużą, co daje KF możliwość korekty zawartych w nim błędów. Można również określić małe wartości,
Ten obszar projektowania KF może wymagać prób i błędów lub oceny technicznej w celu przedstawienia wartości stanu początkowego i jego niepewności, które skutkują dobrą wydajnością. Z tego powodu, ten i inne aspekty konstrukcji filtra KF, które obejmują określenie niepewności, które skutkują dobrą wydajnością (czy to numerycznie, szacowanie, przewidywanie ...) są często nazywane „dostrajaniem filtrów”.
Ale w innych zastosowaniach można zastosować bardziej rygorystyczne i użyteczne podejście do wcześniejszych niepewności. Poprzedni przykład dotyczył szacowania w czasie rzeczywistym (aby odfiltrować szum z niepewnych pomiarów). Stan początkowy i jego wariancja (wcześniejsza niepewność) są niemal niezbędnym złem do zainicjowania filtra we wczesnym czasie, po czym stan początkowy staje się coraz bardziej nieistotny, ponieważ przyszłe obserwacje są wykorzystywane do poprawy szacunków. Rozważmy teraz filtr Kalmana zastosowany do pomiarów i prognoz modelu w określonym czasie t_s. Mamy niepewne obserwacje, niepewny model, ale mamy też wcześniejszą wiedzę na temat poszukiwanego rozwiązania. Powiedzmy, że znamy jego Gaussowski PDF: średnia i wariancja. W takim przypadku rozwiązanie może bardzo silnie zależeć od wcześniejszej niepewności, co oznacza punkt d) powyżej,
Ta funkcja, która jest fundamentalna dla teorii bayesowskiej, pozwala KF rozwiązywać problemy stochastyczne, biorąc pod uwagę każdy rodzaj niepewności / informacji, które są zazwyczaj dostępne. Ponieważ KF jest rozwijany i stosowany od dziesięcioleci, jego podstawowe funkcje nie zawsze są szczegółowo opisane. Z mojego doświadczenia wynika, że wiele artykułów i książek koncentruje się na optymalności i linearyzacji (rozszerzony KF, bezzapachowy KF itd.). Ale znalazłem świetne opisy powiązań między teorią bayesowską a KF, czytając artykuły wprowadzające i teksty na temat „filtrów cząstek”. To kolejna i nowsza implementacja estymacji bayesowskiej, sprawdź je, jeśli jesteś zainteresowany!