Pełne ujawnienie: nie jestem statystykiem ani nie twierdzę, że nim jestem. Jestem skromnym administratorem IT. Graj ze mną delikatnie. :)
Odpowiadam za zbieranie i prognozowanie wykorzystania miejsca na dysku dla naszego przedsiębiorstwa. Gromadzimy nasze wykorzystanie pamięci co miesiąc i stosujemy prostą, dwunastomiesięczną regresję liniową do prognoz (innymi słowy, tylko poprzednie dwanaście miesięcy danych są brane pod uwagę przy sporządzaniu prognozy). Używamy tych informacji do planowania alokacji i wydatków kapitałowych, np. „W oparciu o ten model będziemy musieli zakupić x kwoty, jeśli miejsce do magazynowania w miesiącach będzie odpowiadać naszym potrzebom”. To wszystko działa wystarczająco dobrze, aby spełnić nasze potrzeby.
Okresowo mamy duże jednorazowe ruchy w naszych liczbach, które zakłócają prognozowanie. Na przykład ktoś znajduje 500 GB starych kopii zapasowych, które nie są już potrzebne, i usuwa je. Dobre dla nich za odzyskanie przestrzeni! Jednak nasze prognozy są teraz zniekształcone przez duży spadek w ciągu jednego miesiąca. Zawsze po prostu akceptowaliśmy fakt, że taki spadek zajmuje 9-10 miesięcy, aby wyjść z modeli, ale może to potrwać naprawdę długo, jeśli wejdziemy w sezon planowania wydatków kapitałowych.
Zastanawiam się, czy istnieje sposób, aby poradzić sobie z tymi jednorazowymi odchyleniami, aby nie wpływać tak bardzo na prognozowane wartości (np. Nachylenie linii nie zmienia się tak gwałtownie), ale są one brane pod uwagę (np. jednorazowa zmiana wartości y związana z określonym punktem w czasie). Nasze pierwsze próby rozwiązania tego problemu przyniosły brzydkie wyniki (np. Wykładnicze krzywe wzrostu). Jeśli to ma znaczenie, wykonujemy całe przetwarzanie w programie SQL Server.