Skupmy się na problemie biznesowym, opracujmy strategię rozwiązania tego problemu i zacznijmy wdrażać tę strategię w prosty sposób. Później można go poprawić, jeśli wysiłek to uzasadnia.
Problemem biznesu jest maksymalizacja zysków, oczywiście. Odbywa się to poprzez równoważenie kosztów napełniania maszyn z kosztami utraconej sprzedaży. W obecnym składzie koszty ponownego napełniania maszyn są stałe: 20 można uzupełniać każdego dnia. Koszt utraconej sprzedaży zależy zatem od częstotliwości, z jaką maszyny są puste.
Koncepcyjny model statystyczny tego problemu można uzyskać, opracowując sposób oszacowania kosztów dla każdej maszyny na podstawie wcześniejszych danych. oczekiwanodzisiejszy koszt nieobsługiwania maszyny w przybliżeniu równa się szansie, że skończy jej się razy szybkość, z jaką jest używana. Na przykład, jeśli maszyna ma dziś 25% szans na opróżnienie i średnio sprzedaje 4 butelki dziennie, jej oczekiwany koszt wynosi 25% * 4 = 1 butelka utraconej sprzedaży. (Przetłumacz to na dolary, jak chcesz, nie zapominając, że jedna utracona sprzedaż wiąże się z niematerialnymi kosztami: ludzie widzą pustą maszynę, uczą się na niej nie polegać itp. Możesz nawet dostosować ten koszt do lokalizacji maszyny; niejasne maszyny działają przez chwilę pusto, co może wiązać się z niewielkimi kosztami niematerialnymi.) Można założyć, że ponowne napełnienie maszyny natychmiast zresetuje oczekiwaną stratę do zera - rzadkie jest, aby maszyna była opróżniana codziennie (nie chcesz). ..). W miarę upływu czasu,
Prosty model statystyczny wzdłuż tych linii proponuje wahania używać urządzenia pojawiają się losowo. Sugeruje to model Poissona . W szczególności możemy założyć, że maszyna ma dzienną stawkę sprzedaży butelek i że liczba sprzedana w okresie dni ma rozkład Poissona z parametrem . (Inne modele mogą być sformułowane tak, aby obsłużyć możliwości skupień sprzedaży; ten zakłada, że sprzedaż jest indywidualna, przerywana i niezależna od siebie).x θ xθxθx
W niniejszym przykładzie zaobserwowane czasy trwania wynoszą a odpowiadająca sprzedaż wyniosła . Maksymalizacja prawdopodobieństwa daje : ta maszyna sprzedaje około dwóch butelek dziennie. Historia danych nie jest wystarczająco długa, aby zasugerować, że potrzebny jest bardziej skomplikowany model; jest to odpowiedni opis tego, co zaobserwowano do tej pory.y = ( 4 , 14 , 4 , 16 , 16 , 12 , 7 , 16 , 24 , 48 ) θ = 1,8506x=(7,7,7,13,11,9,8,7,8,10)y=(4,14,4,16,16,12,7,16,24,48)θ^=1.8506
Czerwone kropki pokazują sekwencję sprzedaży; niebieskie kropki są szacunkami opartymi na szacunkowym maksymalnym prawdopodobieństwie typowego wskaźnika sprzedaży.
Uzbrojeni w szacunkową szybkość sprzedaży, możemy dalej obliczyć prawdopodobieństwo, że maszyna może być pusta po upływie dni: wynika ona z uzupełniającej funkcji skumulowanej dystrybucji (CCDF) rozkładu Poissona, ocenianej na podstawie wydajności maszyny (zakładanej mieć 50 na następnym rysunku i przykładach poniżej). Mnożenie przez szacowany współczynnik sprzedaży daje wykres oczekiwanej dziennej straty sprzedaży w funkcji czasu od ostatniego uzupełnienia:t
Oczywiście krzywa ta rośnie najszybciej w pobliżu dni, kiedy maszyna najprawdopodobniej się skończy. To, co dodaje do naszego zrozumienia, polega na pokazaniu, że znaczny wzrost zaczyna się tydzień wcześniej. Inne maszyny o innych stawkach będą miały bardziej stromy lub płytszy wzrost: będą to przydatne informacje.50/1.85=27
Biorąc pod uwagę taki wykres dla każdej maszyny (której wydaje się, że jest ich kilkaset), możesz łatwo zidentyfikować 20 maszyn, które obecnie odczuwają największą oczekiwaną stratę: ich obsługa jest optymalną decyzją biznesową. (Należy pamiętać, że każda maszyna będzie miała własną szacunkową szybkość i będzie w swoim punkcie wzdłuż swojej krzywej, w zależności od tego, kiedy była ostatnio serwisowana). Nikt tak naprawdę nie musi patrzeć na te wykresy: identyfikacja maszyn do obsługi na tej podstawie jest łatwa zautomatyzowane za pomocą prostego programu lub nawet arkusza kalkulacyjnego.
To dopiero początek. Z czasem dodatkowe dane mogą sugerować modyfikacje tego prostego modelu: możesz wziąć pod uwagę weekendy i święta lub inny przewidywany wpływ na sprzedaż; może istnieć cykl tygodniowy lub inne cykle sezonowe; w prognozach mogą pojawić się długoterminowe trendy. Być może warto wyśledzić odległe wartości reprezentujące nieoczekiwane jednorazowe uruchomienia na maszynach i uwzględnić tę możliwość w szacunkach strat itp. Wątpię jednak, że trzeba będzie się bardzo martwić szeregową korelacją sprzedaży: trudno myśleć jakiegokolwiek mechanizmu powodującego taką rzecz.
Och, tak: jak uzyskać oszacowanie ML? Użyłem optymalizatora numerycznego, ale generalnie zbliżysz się po prostu dzieląc całkowitą sprzedaż w ostatnim okresie przez długość okresu. W przypadku tych danych, czyli 163 butelek sprzedawanych od 12.09.2011 do 27.02.2012, okres 87 dni: butelki dziennie. Wystarczająco blisko do i niezwykle prosty w implementacji, dzięki czemu każdy może od razu rozpocząć te obliczenia. (Między innymi R i Excel z łatwością obliczą CCDF Poissona: modelują następnie obliczenia 1,8506θ^=1.871.8506
1-POISSON(50, Theta * A2, TRUE)
dla programu Excel ( A2
to komórka zawierająca czas od ostatniego uzupełnienia i Theta
jest szacunkową dzienną stawką sprzedaży) oraz
1 - ppois(50, lambda = (x * theta))
dla R.)
Bardziej wymyślne modele (które uwzględniają trendy, cykle itp.) Będą musiały wykorzystywać regresję Poissona do swoich oszacowań.
NB Dla miłośników: Celowo unikam dyskusji o niepewnościach w szacowanych stratach. Ich obsługa może znacznie skomplikować obliczenia. Podejrzewam, że bezpośrednie wykorzystanie tych niepewności nie zwiększyłoby wartości decyzji. Przydatna może być jednak świadomość niepewności i ich rozmiarów; które mogą być przedstawione za pomocą pasm błędów na drugim rysunku. Na zakończenie chciałbym jeszcze raz podkreślić charakter tej liczby: drukuje liczby, które mają bezpośrednie i jasne znaczenie biznesowe; mianowicie oczekiwane straty; nie przedstawia bardziej abstrakcyjnych rzeczy, takich jak przedziały ufności wokół , które mogą być interesujące dla statystyk, ale będą po prostu tak dużym hałasem dla decydentów.θ