Od ponad roku próbuję rozwiązać ten problem bez większych postępów. Jest to część projektu badawczego, który realizuję, ale zilustruję go przykładem, który wymyśliłem, ponieważ rzeczywista dziedzina problemu jest nieco myląca (śledzenie wzroku).
Jesteś samolotem śledzącym wrogi statek, który płynie przez ocean, więc zebrałeś serię współrzędnych statku (x, y, czas). Wiesz, że ukryty okręt podwodny podróżuje ze statkiem, aby go chronić, ale chociaż istnieje korelacja między ich pozycjami, okręt podwodny często odchodzi od statku, więc chociaż często jest blisko niego, może również znajdować się po drugiej stronie świat od czasu do czasu. Chcesz przewidzieć ścieżkę łodzi podwodnej, ale niestety jest ona przed tobą ukryta.
Ale w kwietniu zauważysz, że okręt podwodny zapomina się ukryć, więc masz szereg współrzędnych zarówno dla łodzi podwodnej, jak i statku podczas 1000 podróży. Korzystając z tych danych, chcesz zbudować model do przewidywania ścieżki ukrytego okrętu podwodnego, biorąc pod uwagę tylko ruchy statku. Naiwnym punktem odniesienia byłoby powiedzenie „zgadnięcie pozycji łodzi podwodnej =„ aktualna pozycja statku ”, ale z danych z kwietnia, w których łódź podwodna była widoczna, można zauważyć, że istnieje tendencja, aby okręt podwodny nieco wyprzedził statek, więc„ pozycja łodzi podwodnej zgadnij = pozycja statku w ciągu 1 minuty "jest jeszcze lepszym oszacowaniem. Ponadto dane z kwietnia pokazują, że kiedy statek zatrzymuje się w wodzie na dłuższy czas, okręt podwodny prawdopodobnie będzie daleko patrolował wody przybrzeżne. Istnieją inne wzorce oczywiście.
Jak zbudowałbyś ten model, biorąc pod uwagę dane z kwietnia jako dane szkoleniowe, aby przewidzieć ścieżkę okrętu podwodnego? Moje obecne rozwiązanie to regresja liniowa ad hoc, w której czynniki to „czas podróży”, „współrzędna x statku”, „statek był bezczynny przez 1 dzień” itp., A następnie mając R obliczający wagi i przeprowadzający walidację krzyżową . Ale naprawdę chciałbym sposób na automatyczne wygenerowanie tych czynników na podstawie danych z kwietnia. Również model wykorzystujący sekwencję lub czas byłby fajny, ponieważ regresja liniowa nie ma i myślę, że jest istotna.
Dziękuję za przeczytanie tego wszystkiego i chętnie cokolwiek wyjaśnię.