Szukam pewnych niezawodnych technik usuwania wartości odstających i błędów (bez względu na przyczynę) z danych finansowych szeregów czasowych (tj. Tickdata).
Dane finansowe szeregów czasowych od tyknięcia do tyka są bardzo nieporządne. Zawiera ogromne przerwy (czasowe), gdy giełda jest zamknięta, i wykonuje ogromne skoki, gdy giełda ponownie się otwiera. Gdy giełda jest otwarta, wszelkiego rodzaju czynniki wprowadzają transakcje na poziomach cen, które są nieprawidłowe (nie wystąpiły) i / lub nie są reprezentatywne dla rynku (skok z powodu nieprawidłowo wprowadzonej oferty lub ceny sprzedaży). Ten artykuł autorstwa tickdata.com (PDF) dobrze opisuje problem, ale oferuje kilka konkretnych rozwiązań.
Większość dokumentów, które mogę znaleźć w Internecie, które wspominają o tym problemie, albo go ignorują (zakłada się, że tickdata została odfiltrowana), albo zawierają filtrowanie jako część jakiegoś ogromnego modelu handlowego, który ukrywa wszelkie użyteczne kroki filtrowania.
Czy ktoś jest świadomy bardziej dogłębnej pracy w tym obszarze?
Aktualizacja: te pytania wydają się podobne na powierzchni, ale:
- Finansowe szeregi czasowe są (przynajmniej na poziomie tyknięcia) nieokresowe.
- Efekt otwarcia jest dużym problemem, ponieważ nie możesz po prostu użyć danych z ostatniego dnia jako inicjalizacji, nawet jeśli naprawdę tego chcesz (bo inaczej nie masz nic). Zdarzenia zewnętrzne mogą spowodować, że otwarcie nowego dnia będzie się znacznie różnić zarówno pod względem poziomu bezwzględnego, jak i zmienności z poprzedniego dnia.
- Bardzo nieregularna częstotliwość przychodzących danych. Przy otwarciu i zamknięciu dnia ilość punktów danych na sekundę może być 10 razy większa niż średnia w ciągu dnia. Drugie pytanie dotyczy regularnie pobieranych danych.
- „Wartości odstające” w danych finansowych wykazują pewne specyficzne wzorce, które można wykryć za pomocą konkretnych technik, które nie mają zastosowania w innych domenach, a ja częściowo szukam tych konkretnych technik.
- W bardziej ekstremalnych przypadkach (np. Awaria pamięci flash) wartości odstające mogą stanowić ponad 75% danych w dłuższych odstępach czasu (> 10 minut). Ponadto (wysoka) częstotliwość przychodzących danych zawiera pewne informacje o odbiegającym aspekcie sytuacji.