EDYCJA: Tragedia! Moje początkowe założenia były błędne! (A przynajmniej wątpię - czy wierzysz w to, co sprzedawca ci mówi? Mimo to, czapka dla Mortena również.) Sądzę, że to kolejne dobre wprowadzenie do statystyki, ale Podejście Częściowego Arkusza zostało teraz dodane poniżej ( ponieważ ludzie podobają się całemu arkuszowi, a być może ktoś nadal uzna to za przydatne).
Przede wszystkim wielki problem. Ale chciałbym, aby było to trochę bardziej skomplikowane.
Z tego powodu, zanim to zrobię, pozwólcie, że uczynię to nieco prostszym i powiedzmy - metoda, której używasz teraz, jest całkowicie rozsądna . Jest tani, łatwy, ma sens. Więc jeśli musisz się tego trzymać, nie powinieneś czuć się źle. Upewnij się, że losowo wybierasz pakiety. I, jeśli możesz po prostu rzetelnie zważyć wszystko (wskazówka dla whubera i użytkownika777), powinieneś to zrobić.
Powodem, dla którego chcę uczynić to nieco bardziej skomplikowanym, jest to, że już masz - po prostu nie powiedziałeś nam o całej komplikacji, to znaczy - liczenie wymaga czasu, a czas to także pieniądze . Ale jak dużo ? Może faktycznie taniej jest policzyć wszystko!
Tak więc to, co naprawdę robisz, to równoważenie czasu potrzebnego do policzenia z ilością zaoszczędzonych pieniędzy. (JEŚLI oczywiście grasz w tę grę tylko raz. NASTĘPNY czas, kiedy to się dzieje ze sprzedawcą, być może złapali się i wypróbowali nową sztuczkę. W teorii gier jest to różnica między grami Single Shot i Iterated Gry. Ale na razie udawajmy, że sprzedawca zawsze zrobi to samo.)
Jeszcze jedna rzecz, zanim przejdę do oszacowania. (I przepraszam, że tyle napisałem i wciąż nie dotarłem do odpowiedzi, ale to całkiem niezła odpowiedź na pytanie, co zrobiłby statystyk? Spędziliby mnóstwo czasu, upewniając się, że rozumieją każdą najmniejszą część problemu zanim czuli się swobodnie, mówiąc coś na ten temat.) I to jest wgląd oparty na następujących kwestiach:
(EDYCJA: JEŻELI SĄ RZECZYWIŚCIE OCHRONY ...) Twój sprzedawca nie oszczędza pieniędzy, usuwając etykiety - oszczędza pieniądze, nie drukując arkuszy. Nie mogą sprzedawać twoich etykiet innym osobom (zakładam). A może nie wiem i nie wiem, jeśli tak, nie mogą wydrukować pół arkusza twoich rzeczy i pół arkusza cudzych. Innymi słowy, zanim jeszcze zaczniesz liczyć, możesz założyć, że całkowita liczba etykiet jest równa 9000, 9100, ... 9900, or 10,000
. Na razie do tego podchodzę.
Metoda całego arkusza
Kiedy problem jest trochę trudny, jak ten (dyskretny i ograniczony), wielu statystyk symuluje, co może się zdarzyć. Oto, co symulowałem:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
To daje, zakładając, że używają całych arkuszy, a twoje założenia są poprawne, możliwą dystrybucję twoich etykiet (w języku programowania R).
Potem zrobiłem to:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Za pomocą metody „bootstrap” znaleziono przedziały ufności przy użyciu 4, 5, ... 20 próbek. Innymi słowy, jak średnio byś użył N próbek, jaki byłby twój przedział ufności? Używam tego, aby znaleźć odstęp, który jest wystarczająco mały, aby zdecydować o liczbie arkuszy, i to moja odpowiedź.
Przez „wystarczająco mały” mam na myśli, że mój przedział ufności 95% zawiera tylko jedną liczbę całkowitą - np. Jeśli mój przedział ufności wynosił [93.1, 94,7], to wybrałbym 94 jako prawidłową liczbę arkuszy, ponieważ wiemy, że to liczba całkowita.
KOLEJNA trudność - twoje zaufanie zależy od prawdy . Jeśli masz 90 arkuszy, a każdy stos ma 90 etykiet, to zbiegasz się naprawdę szybko. To samo z 100 arkuszami. Spojrzałem więc na 95 arkuszy, gdzie jest największa niepewność, i stwierdziłem, że aby mieć 95% pewności, potrzebujesz średnio około 15 próbek. Powiedzmy ogólnie, że chcesz pobrać 15 próbek, ponieważ nigdy nie wiesz, co naprawdę tam jest.
PO wiesz, ile próbek potrzebujesz, wiesz, że oczekiwane oszczędności wynoszą:
100 N.m i s s i n g- 15 c
do500 - 15 *
Ale powinieneś również obciążyć faceta za zmuszanie cię do wykonania całej tej pracy!
(EDYCJA: DODANA!) Podejście do arkusza częściowego
Okej, więc załóżmy, że to, co mówi producent, jest prawdziwe i nie jest zamierzone - kilka etykiet zgubiono w każdym arkuszu. Nadal chcesz wiedzieć, ile ogólnie etykiet?
Ten problem jest inny, ponieważ nie masz już przyjemnej, czystej decyzji, którą możesz podjąć - to była zaleta dla założenia Cały arkusz. Wcześniej było tylko 11 możliwych odpowiedzi - teraz jest ich 1100, a uzyskanie 95% przedziału ufności na dokładnie to, ile jest etykiet, prawdopodobnie pobierze znacznie więcej próbek, niż chcesz. Zobaczmy, czy możemy o tym myśleć inaczej.
Ponieważ tak naprawdę chodzi o to, abyś podjął decyzję, wciąż brakuje nam kilku parametrów - ile pieniędzy jesteś gotów stracić, w jednej umowie i ile pieniędzy kosztuje policzenie jednego stosu. Ale pozwól mi ustawić, co możesz zrobić z tymi liczbami.
Symulacja ponownie (chociaż rekwizyty dla użytkownika777, jeśli możesz to zrobić bez!), Warto spojrzeć na rozmiar interwałów, gdy używasz różnej liczby próbek. Można to zrobić w następujący sposób:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Który zakłada (tym razem), że każdy stos ma jednakowo losową liczbę etykiet od 90 do 100, i daje:
Oczywiście, gdyby rzeczy były naprawdę tak, jakby były symulowane, prawdziwa średnia wynosiłaby około 95 próbek na stos, co jest wartością niższą niż wydaje się być - tak naprawdę jest to jeden argument za podejściem bayesowskim. Ale daje użyteczne wyczucie, o ile bardziej pewny stajesz się w związku z odpowiedzią, gdy kontynuujesz próbowanie - i możesz teraz wyraźnie obniżyć koszty próbkowania z dowolną umową o wycenie.
O czym już wiem, wszyscy jesteśmy bardzo ciekawi, aby usłyszeć.