Opracowanie odpowiedniego modelu szeregów czasowych do przewidywania sprzedaży na podstawie danych z ostatniego miesiąca


12

Od dwóch lat prowadzę działalność online, więc mam miesięczne dane dotyczące sprzedaży od około dwóch lat. Na mój biznes na każdy miesiąc z pewnością ma wpływ sezonowa huśtawka (działa lepiej w Boże Narodzenie itp.) I prawdopodobnie kilka innych czynników, których nie jestem świadomy.

W celu lepszego przewidywania przyszłej sprzedaży oraz w celu oceny skuteczności mojej kampanii sprzedażowej lub wpływu nowych konkurentów, chcę być w stanie opracować odpowiedni model szeregów czasowych, aby ekstrapolować moje bieżące dane sprzedażowe na przyszłość. Dzieje się tak, gdy porównując wynik mojej prognozy z faktycznym wynikiem, mogę ilościowo przetestować skuteczność mojej kampanii sprzedażowej lub wpływ konkurencji.

Moje pytanie brzmi: biorąc pod uwagę, że mam dane sprzedaży za 2 lata, czy w każdym razie mogę sformułować model prognozowania szeregów czasowych?

Uwaga: Bardziej interesują mnie koncepcje i teorie tła, niż narzędzia czarnej skrzynki. Mówiąc o narzędziach, mam matematykę, matlaba, R, Excela, arkusz kalkulacyjny Google ... ty to nazywasz.


Z jakiego oprogramowania korzystasz?
Dimitriy V. Masterov

1
@ DimitriyV.Masterov, mam Matlab / R / Excel / Mathematica ... nazywasz to. Właściwie bardziej interesują mnie koncepcje niż pisanie samego kodu
Graviton,

Odpowiedzi:


14

Tak, są na to sposoby. Ludzie zarabiają na życie robiąc takie rzeczy ;-)

Szukasz prognozowania przyczynowego . Przejrzyj ten darmowy podręcznik online dotyczący prognozowania, aby dowiedzieć się o metodologii prognozowania.

Masz dwie kluczowe kwestie, z którymi musisz sobie poradzić: sezonowość (lub bardziej ogólnie, struktura szeregów czasowych, być może z autoregresją) z jednej strony i efekty przyczynowe, takie jak promocje z drugiej strony. Rozdział 8 w powyższym podręczniku dotyczy szeregów czasowych w kontekście ARIMA, podczas gdy rozdział 5 dotyczy efektów przyczynowych.

Na szczęście można rozwiązać oba problemy, obliczając modele ARIMAX (X oznacza „efekty zewnętrzne”, tj. ARIMA z efektami zewnętrznymi) lub regresje z błędami ARIMA. Zobacz blog Roba Hyndmana na temat „Błędu modelu ARIMAX” . auto.arima()Funkcji w forecastpakiecie R pasuje regresji z błędami ARIMA. Przejdźmy przez przykład, w którym biorę standardowy zestaw danych o silnych trendach i sezonowości i dodam „promocje”.

library(forecast)
AirPassengers # a built-in dataset
#      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
# 1949 112 118 132 129 121 135 148 148 136 119 104 118
# 1950 115 126 141 135 125 149 170 170 158 133 114 140
# 1951 145 150 178 163 172 178 199 199 184 162 146 166
# 1952 171 180 193 181 183 218 230 242 209 191 172 194
# 1953 196 196 236 235 229 243 264 272 237 211 180 201
# 1954 204 188 235 227 234 264 302 293 259 229 203 229
# 1955 242 233 267 269 270 315 364 347 312 274 237 278
# 1956 284 277 317 313 318 374 413 405 355 306 271 306
# 1957 315 301 356 348 355 422 465 467 404 347 305 336
# 1958 340 318 362 348 363 435 491 505 404 359 310 337
# 1959 360 342 406 396 420 472 548 559 463 407 362 405
# 1960 417 391 419 461 472 535 622 606 508 461 390 432

set.seed(1) # for reproducibility
promos <- rep(0,length(AirPassengers))
promos[sample(seq_along(AirPassengers),10)] <- 1
promos.future <- c(0,1,0,0,1,0,0,1,0,0,1,0)
AP.with.promos <- AirPassengers
AP.with.promos[promos==1] <- AP.with.promos[promos==1]+120

model <- auto.arima(AP.with.promos,xreg=promos)
summary(model) # examine the model - you'll see the estimated promo coefficient
# Series: AP.with.promos 
# ARIMA(0,1,1)(0,1,0)[12]                    

# Coefficients:
#           ma1    promos
#       -0.3099  122.2599
# s.e.   0.0947    2.2999

# sigma^2 estimated as 151.2:  log likelihood=-457.4
# AIC=920.79   AICc=920.98   BIC=929.42

# Training set error measures:
#                     ME     RMSE     MAE        MPE     MAPE      MASE         ACF1
# Training set 0.2682805 11.12974 8.24397 0.06139784 2.867274 0.1860814 0.0008326436

fcast <- forecast(model,xreg=promos.future,h=length(promos.future))
fcast
#          Point Forecast    Lo 80    Hi 80    Lo 95    Hi 95
# Jan 1961       447.1516 431.3951 462.9081 423.0542 471.2490
# Feb 1961       543.4115 524.2670 562.5559 514.1326 572.6904
# Mar 1961       449.1516 427.1345 471.1687 415.4793 482.8239
# Apr 1961       491.1516 466.5956 515.7076 453.5964 528.7068
# May 1961       624.4115 597.5556 651.2674 583.3389 665.4841
# Jun 1961       565.1516 536.1777 594.1255 520.8399 609.4633
# Jul 1961       652.1516 621.2044 683.0988 604.8220 699.4812
# Aug 1961       758.4115 725.6095 791.2135 708.2452 808.5778
# Sep 1961       538.1516 503.5942 572.7090 485.3006 591.0026
# Oct 1961       491.1516 454.9237 527.3795 435.7459 546.5573
# Nov 1961       542.4115 504.5869 580.2361 484.5637 600.2593
# Dec 1961       462.1516 422.7950 501.5082 401.9608 522.3424
promos.ts <- ts(c(AP.with.promos,fcast$mean),
                  start=start(AirPassengers),frequency=frequency(AirPassengers))
promos.ts[c(promos,promos.future)==0] <- NA

plot(fcast)
points(promos.ts,pch=19,col="red")

ARIMAX

Czerwone kropki to promocje. Domyślnie interwały przewidywania są drukowane na szaro. Możesz podać wiele regresorów do swojego modelu za pomocą xregparametru, co powinieneś zrobić, jeśli masz różne rodzaje promocji z różnymi efektami. Eksperymentuj trochę.

Poleciłbym przyjrzeć się bardziej szczegółowym danym niż miesięcznym, jeśli je masz, np. Co tydzień. Zwłaszcza oczywiście, jeśli Twoje promocje nie będą trwały przez pełne miesiące. Możesz to zrobić osobno według produktu, szczególnie jeśli promujesz określone produkty lub całe kategorie.

Alternatywą byłoby, biorąc pod uwagę, że bardziej interesujesz się koncepcjami niż kodem, aby spojrzeć na Wygładzanie wykładnicze i zmienić go zgodnie z własnymi potrzebami, dodając elementy promocyjne do standardowych trzech poziomów, sezonów i trendów. Wygładzanie wykładnicze możesz zrobić znacznie więcej niż próbując oszacować maksymalne prawdopodobieństwo modelu ARIMAX, ale wygładzanie może przerodzić się w koszmar księgowości, jeśli masz wiele rodzajów promocji.


1
Modele ARIMA z współzmiennymi omówiono w części 9 książki: www.otexts.org/fpp/9/1
Rob Hyndman,

Dzięki, Rob. Naprawdę muszę częściej czytać książkę ...
Stephan Kolassa

Dzięki @StephanKolassa! pytanie poboczne, czy mogę dostać książkę, o której wspomniałeś w powyższym poście, w formacie mobi lub epub?
Graviton,

1
@Graviton: dobre pytanie. Najlepiej zapytać autora (autorów). Jednym z nich jest Rob Hyndman, który skomentował powyżej.
Stephan Kolassa

1
@Graviton. Pracuję nad tym. Zobacz robjhyndman.com/hyndsight/fpp-amazon
Rob Hyndman

4

po pierwsze, nie masz dużo danych do zabawy, tylko 24 obserwacje. W twoim przypadku oznacza to, że ledwo masz kilka parametrów do wiarygodnego oszacowania. najbardziej systematycznym sposobem prognozowania jest opracowanie procesu generowania danych (MZD). zakładasz, jaki jest prawdziwy proces sprzedaży, a następnie próbujesz oszacować jego parametry.

xt=ϕxt1+c

(1L)(1L12)xt=cxt=c+ϕ1xt1+ϕ12xt12ϕ1ϕ12xr13. dodaje to jeszcze jeden parametr do oszacowania, więc zejdziesz do 6 obserwacji na parametr - prawdziwy odcinek.

w Matlab ten model jest określony jako arima('ARLags',1,'SARLags',12)

zakłada to, że sprzedaż jest stabilna, tzn. ogólnie nie rośnie.

jeśli uważasz, że Twoja sprzedaż rośnie, masz dwie opcje: losowy spacer (RW) i trend czasowy.

w Matlab RW jest określony za pomocą arima('D',1,'SARLags',12)

oczywiście są to tylko przykłady różnych MZD. cokolwiek robisz, pamiętaj o liczbie parametrów do oszacowania. z 24 obserwacjami twój model musi być bardzo prosty, maksymalnie 4 parametry (w tym wariancje).


0

Oto, co powinieneś zrobić Zrób dwa wykresy:

  • Sprzedaż a czas przez całe 24 miesiące
  • Sprzedaż w funkcji czasu z drugim rokiem wyznaczonym na pierwszy rok

Spojrzeć na nich. Zanotuj daty specjalnych promocji lub znanych działań konkurencyjnych. „Grudzień” jest zwykle dość oczywisty, ale dodaj notatkę, jeśli pomoże ci to wywołać.

Śmiało i dopasuj model szeregów czasowych - dowolny model (są ich setki). Model może dać ci nieco lepszą prognozę na następny okres (t + 1) niż twój osąd. Przynajmniej podważy twój osąd. Poza kolejnym okresem (t + n, n> 1) każdy model szeregów czasowych jest gównem. † Więc zapomnij o ilościowej ocenie skuteczności kampanii sprzedażowych lub efektów konkurencji. Jeśli porównasz rzeczywistą sprzedaż z prognozami, okaże się, że prognozy są bzdurne. Przewidywanie przyszłości jest trudne i żadna metoda nie zmienia tego podstawowego faktu.

Przydatne będą dwa wykresy. Przestudiuj je przez chwilę, a następnie spędź resztę czasu na wymyślaniu pomysłów na zwiększenie sprzedaży - będzie to o wiele bardziej opłacalne wykorzystanie twojego czasu niż próba dopasowania modelu szeregów czasowych.

† Masz więcej nadziei, jeśli możesz stworzyć model predykcyjny oparty na wiodących wskaźnikach - tzn. Sprzedaż mieszkań w poprzednim miesiącu może być przydatna do przewidywania sprzedaży odcieni okien w bieżącym miesiącu.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.