Prognozowalność
Masz rację, że jest to kwestia przewidywalności. Odnotowano kilka artykułów na forecastability w IIF za praktykującego zorientowanych czasopisma Foresight . (Pełne ujawnienie: jestem redaktorem).
Problem polega na tym, że przewidywalność jest już trudna do oszacowania w „prostych” przypadkach.
Kilka przykładów
Załóżmy, że masz taką serię czasową, ale nie mówisz po niemiecku:
Jak modelowałbyś duży szczyt w kwietniu i jak uwzględniłbyś te informacje w jakichkolwiek prognozach?
Jeśli nie wiesz, że ta seria czasowa to sprzedaż jaj w szwajcarskiej sieci supermarketów, która osiąga szczyt tuż przed Wielkanocą w kalendarzu zachodnim , nie miałbyś szans. Dodatkowo, gdy Wielkanoc przesuwa się po kalendarzu nawet o sześć tygodni, wszelkie prognozy, które nie zawierają konkretnej daty Wielkanocy (zakładając, powiedzmy, że był to tylko jakiś szczyt sezonu, który powróci w określonym tygodniu w przyszłym roku) prawdopodobnie byłby bardzo zły.
Podobnie, załóżmy, że masz niebieską linię poniżej i chcesz modelować wszystko, co wydarzyło się 28.02.2010, tak inaczej niż „normalne” wzory 27.02.2010:
Ponownie, nie wiedząc, co się stanie, gdy całe miasto pełne Kanadyjczyków obejrzy w telewizji mecz finałów olimpijskich w hokeju na lodzie, nie masz szansy zrozumieć, co się tutaj wydarzyło, i nie będziesz w stanie przewidzieć, kiedy coś takiego się powtórzy.
Na koniec spójrz na to:
Jest to szereg czasowy codziennej sprzedaży w sklepie kasowym . (Po prawej stronie masz prosty stół: 282 dni miało zerową sprzedaż, 42 dni przyniosło sprzedaż 1 ... a pewnego dnia sprzedaż 500.) Nie wiem, co to jest.
Do dziś nie wiem, co wydarzyło się tego dnia ze sprzedażą na poziomie 500. Domyślam się, że jakiś klient zamówił wcześniej dużą ilość dowolnego produktu i go odebrał. Teraz, nie wiedząc o tym, każda prognoza na ten konkretny dzień będzie daleka. Odwrotnie, załóżmy, że stało się to tuż przed Wielkanocą, a my mamy głupi, inteligentny algorytm, który uważa, że może to być efekt wielkanocny (może to są jajka?) I na szczęście prognozuje 500 jednostek na następną Wielkanoc. O mój, czy to może pójść nie tak?
Podsumowanie
We wszystkich przypadkach widzimy, w jaki sposób przewidywalność można dobrze zrozumieć tylko wtedy, gdy mamy wystarczająco głębokie zrozumienie prawdopodobnych czynników, które wpływają na nasze dane. Problem polega na tym, że jeśli nie znamy tych czynników, nie wiemy, że możemy ich nie znać. Według Donalda Rumsfelda :
[T] tutaj są znane znane; są rzeczy, o których wiemy, że wiemy. Wiemy również, że znane są niewiadome; to znaczy wiemy, że są pewne rzeczy, których nie wiemy. Ale są też nieznane niewiadome - te, o których nie wiemy, nie wiemy.
Jeśli Wielkanoc lub Kanadyjczycy nie znają się na hokeju, nie są nam nieznane, utknęliśmy - i nie mamy nawet drogi naprzód, ponieważ nie wiemy, jakie pytania musimy zadać.
Jedynym sposobem na poradzenie sobie z nimi jest zebranie wiedzy o domenach.
Wnioski
Wyciągam z tego trzy wnioski:
- Ty zawsze muszą obejmować dziedziny wiedzy w modelowaniu i prognozowaniu.
- Nawet przy znajomości domeny nie ma gwarancji, że uzyskasz wystarczającą ilość informacji, aby Twoje prognozy i prognozy były akceptowalne dla użytkownika. Zobacz powyższą wartość odstającą.
- Jeśli „Twoje wyniki są nieszczęśliwe”, możesz mieć nadzieję na więcej niż możesz osiągnąć. Jeśli prognozujesz rzetelne rzuty monetą, nie ma możliwości uzyskania dokładności powyżej 50%. Nie ufaj też zewnętrznym testom porównawczym dokładności prognoz.
Dolna linia
Oto jak poleciłbym budowanie modeli - i zauważenie, kiedy przestać:
- Porozmawiaj z osobą posiadającą wiedzę na temat domeny, jeśli jeszcze jej nie masz.
- Zidentyfikuj główne czynniki napędzające dane, które chcesz prognozować, w tym prawdopodobne interakcje, na podstawie kroku 1.
- Twórz modele iteracyjnie, w tym sterowniki w kolejności malejącej siły, zgodnie z krokiem 2. Oceniaj modele przy użyciu weryfikacji krzyżowej lub próby wstrzymania.
- Jeśli dokładność przewidywania nie zwiększa się, wróć do kroku 1 (np. Identyfikując rażące nieporozumienia, których nie możesz wyjaśnić i omawiając je z ekspertem w dziedzinie), lub zaakceptuj, że osiągnąłeś koniec swojej możliwości modeli. Pomaga w tym przedział czasowy analizy .
Zauważ, że nie zalecam wypróbowania różnych klas modeli, jeśli twój oryginalny model ma płaskowyże. Zazwyczaj, jeśli zacząłeś od rozsądnego modelu, użycie czegoś bardziej wyrafinowanego nie przyniesie znaczących korzyści i może po prostu być „nadmiernym dopasowaniem do zestawu testowego”. Często to widziałem i inni się z tym zgadzają .