Zamiast obliczać prawdopodobieństwo, dlaczego nie przewidzieć, ile produktów może zawieść?
Modelowanie obserwacji
W tej dziedzinie znajduje się produktów, a kolejne . Załóżmy, że ich awarie są niezależne i stałe z prawdopodobieństwem .m = 10000 pn=100000m=10000p
Możemy modelować tę sytuację za pomocą eksperymentu dwumianowego: z pudełka biletów o nieznanej proporcji biletów „awarii” i biletów „sukcesu” narysuj biletów (z wymianą, tak aby prawdopodobieństwo niepowodzenia pozostaje takie samo). Policz niepowodzeń wśród pierwszych biletów - niech to będzie --and liczba niepowodzeń wśród pozostałych biletów, nazywając tę .1 - p m + n = 110000 n X m Yp1−pm+n=110000nXmY
Opracowanie pytania
Zasadniczo i może być cokolwiek. To, co jest zainteresowany jest prawdopodobieństwo, że podano , że (z dowolną liczbę w ). Ponieważ awarie mogą wystąpić w dowolnym miejscu spośród wszystkich biletów , przy każdej możliwej konfiguracji mającej tę samą szansę, można je znaleźć, dzieląc liczbę podzbiorów rzeczy przez liczbę podzbiorów wszystkich rzeczy:0 ≤ Y ≤ m Y = u X + Y = u u { 0 , 1 , … , m } n + m u m u n + m0≤X≤n0≤Y≤mY=u X+Y=uu{0,1,…,m}n+mumun+m
p(u;n,m)=Pr(Y=u|X+Y=u)=(mu)(n+mu)=m(m−1)⋯(m−u+1)(n+m)(n+m−1)⋯(n+m−u+1).
Porównywalne wzory mogą być użyte do obliczeń, gdyX=1,2,….
Górnej granica przewidywania1−α (UPL) do liczby uszkodzeń w tych ostatnich bilety, , obliczana jest najmniejszy (w zależności od ), w którym .mtα(X;n,m)uXp(u;n,m)≤α
Interpretacja
UPL należy interpretować pod kątem ryzyka użycia , ocenianego przed zaobserwowaniem lub Innymi słowy, przypuśćmy, że to jest rok temu i zostaniesz poproszony o zalecenie procedury przewidywania liczby awarii w następnych produktach po zaobserwowaniu pierwszego . Twój klient pytatαXYmn
Jaka jest szansa, że procedura będzie underpredict ? Nie mam na myśli w przyszłości, kiedy będziesz mieć więcej danych; Mam na myśli w tej chwili, ponieważ muszę teraz podejmować decyzje, a jedyne szanse, jakie będę mieć, to te, które można teraz obliczyć. ”Y
Twoja odpowiedź może być
W tej chwili szansa nie jest większa niż , ale jeśli planujesz użyć mniejszej prognozy, szansa przekroczy .αα
Wyniki
Dla , , a możemy to obliczyćn=105m=104X=0
p(0,n,m)=1; p(1,n,m)=111≈0.091; p(2,n,m)=909109999≈0.0083;…
Zatem po zaobserwowaniuX=0 ,
Dla pewności do (czyli gdy ), przewiduj, że w następnych produktów wystąpi najwyżej awaria .1−α=90.9%9.1%≤αtα(0;n,m)=110,000
Dla pewności (to znaczy, gdy ), przewiduj, że najwyżej awarie w następnych produktów.99.2%0.8%≤α<9.1%tα(0;n,m)=210,000
Itp.
Komentarze
Kiedy i dlaczego takie podejście miałoby mieć zastosowanie? Załóżmy, że Twoja firma produkuje wiele różnych produktów. Po zaobserwowaniu wydajności każdego z nich w polu lubi przedstawiać gwarancje, takie jak „całkowita bezpłatna wymiana awarii w ciągu jednego roku”. Dysponując limitami prognoz dla liczby awarii, możesz kontrolować całkowite koszty konieczności zabezpieczenia tych gwarancji. Ponieważ tworzysz wiele produktów i oczekujesz, że niepowodzenia będą spowodowane przypadkowymi okolicznościami, na które nie masz wpływu, doświadczenie każdego produktu będzie niezależne. Na dłuższą metę warto kontrolować ryzykon. Co jakiś czas możesz być zmuszony do zapłaty większej liczby roszczeń niż oczekiwano, ale przez większość czasu zapłacisz mniej. Jeśli płacenie więcej niż zapowiadane może być rujnujące, ustawisz na bardzo małą (i prawdopodobnie użyłbyś również bardziej wyrafinowanego modelu awarii!). W przeciwnym razie, jeśli koszty są niewielkie, możesz żyć z niskim poziomem pewności (wysoka ). Obliczenia te pokazują, jak zrównoważyć zaufanie i ryzyko.αα
Zauważ, że nie musimy obliczać pełnej procedury . Czekamy, aż zostanie zaobserwowany, a następnie po prostu przeprowadzamy obliczenia dla tego konkretnego (tutaj, ), jak pokazano powyżej. Zasadniczo moglibyśmy jednak przeprowadzić obliczenia dla wszystkich możliwych wartości na początku.tXXX=0X
Podejście bayesowskie (opisane w innych odpowiedziach) jest atrakcyjne i będzie dobrze działać, pod warunkiem, że wyniki nie zależą w dużej mierze od wcześniejszych. Niestety, gdy wskaźnik awarii jest tak niski, że obserwuje się bardzo niewiele (lub nie ma awarii), wyniki są wrażliwe na wybór wcześniejszego.