Podejście teoretyczne do statystyki zapewnia głębokie wyjaśnienie. Mówi, że wyrównywanie różnic stanowi przybliżenie dla szerokiego zakresu funkcji strat, które (ilekroć można je uzasadnić) prowadzą do znacznego uproszczenia możliwych procedur statystycznych, które należy wziąć pod uwagę.
Niestety, wyjaśnienie, co to oznacza, i wskazanie, dlaczego tak jest, zajmuje dużo czasu. Notacja może szybko stać się niezrozumiała. To, co zamierzam tutaj zrobić, to jedynie naszkicowanie głównych pomysłów, przy niewielkim rozwinięciu. Aby uzyskać pełniejsze konta, zobacz referencje.
Standardowy, bogaty model danych zakłada, że są one realizacją (rzeczywistej, wektorowej) zmiennej losowej X, której rozkład F jest znany tylko jako element pewnego zestawu Ω rozkładów, stanów natury . Statystyczna procedura jest funkcją t od x przyjmujących wartości w pewnym zbiorze orzeczeń D , w przestrzeni decyzyjnej.xXfaΩtxD
Na przykład problem przewidywania lub klasyfikacji polegałby na połączeniu „zestawu treningowego” i „zestawu testowego danych”, a t zamapuje x na zestaw prognozowanych wartości dla zestawu testowego. Zbiór wszystkich możliwych wartości przewidywanych byłoby D .xtxD
Pełna teoretyczna dyskusja na temat procedur musi uwzględniać procedury randomizowane . Procedura losowa wybiera jedną lub dwie możliwe decyzje zgodnie z pewnym rozkładem prawdopodobieństwa (zależnym od danych ). Uogólnia to intuicyjny pomysł, że gdy dane wydają się nie rozróżniać dwóch alternatyw, następnie „rzucasz monetą”, aby zdecydować o konkretnej alternatywie. Wiele osób nie lubi randomizowanych procedur, sprzeciwiając się podejmowaniu decyzji w tak nieprzewidywalny sposób.x
Cechą wyróżniającą teorii decyzji jest jego użycie funkcji utrata . W Dla każdego stanu natury i decyzji d ∈ D , strataF∈Ωd∈D
W(F,d)
to wartość liczbowa reprezentująca, jak „źle” byłoby podjąć decyzję gdy prawdziwym stanem natury jest F : małe straty są dobre, duże straty są złe. Na przykład w sytuacji testowania hipotezy D ma dwa elementy: „zaakceptuj” i „odrzuć” (hipoteza zerowa). Funkcja strat kładzie nacisk na podjęcie właściwej decyzji: jest ustawiona na zero, gdy decyzja jest poprawna, a poza tym jest pewne stałe w . (To się nazywa „ 0 - 1 utrata funkcji:” wszystkie złe decyzje są równie złe, a wszystkie decyzje dobre są równie dobre.) W szczególności, W ( F , akceptować ) = 0 , gdydFDw0−1W(F, accept)=0 jest w hipotezie zerowej, a W ( F , odrzucenie ) = 0, gdy F jest w hipotezie alternatywnej.FW(F, reject)=0F
Podczas korzystania z procedury utratę danych x, gdy prawdziwym stanem natury jest F, można zapisać W ( F , t ( x ) ) . To sprawia, że strata W ( K , T ( X ) ) zmienną losową , której rozkład jest określona przez (The nieznane) F .txFW(F,t(x))W(F,t(X))F
trtFF
rt(F)=EF(W(F,t(X))).
WW1/ww=10−1
0−1FFFpowert(F)=1−rt(F)). W tym widzimy, jak całość klasycznej (częstej) teorii testowania hipotez stanowi konkretny sposób porównywania funkcji ryzyka dla szczególnego rodzaju straty.
Ωrttrtrtrt
W
Chcielibyśmy zatem wiedzieć, jak zmieniłby się wybór najlepszej procedury po zmianie straty? Okazuje się, że w wielu powszechnych, praktycznych sytuacjach można tolerować pewną zmienność bez zmiany najlepszej procedury. Sytuacje te charakteryzują następujące warunki:
Przestrzeń decyzyjna jest zbiorem wypukłym (często przedział liczb). Oznacza to, że każda wartość leżąca między dowolnymi dwiema decyzjami jest również ważną decyzją.
Strata wynosi zero, gdy podejmowana jest najlepsza możliwa decyzja, a w przeciwnym razie wzrasta (aby odzwierciedlić rozbieżności między decyzją, która została podjęta, a najlepszą, którą można podjąć dla prawdziwego - ale nieznanego - stanu natury).
0−1
W
(1) Nie musimy brać pod uwagę randomizowanych procedur [Lehmann, wniosek 6.2].
tWt∗ W
ΩμΩμΩμXnμDμμ^
W(μ,μ^)≥0
W(μ,μ^)=0μ=μ^
W(μ,μ^)=w2(μ^−μ)2+o(μ^−μ)2
w2o(y)pff(y)/yp0y→0Ww2=1ΩXX¯μn(x1,…,xn)Wx¯W
n
z=|μ^−μ|22.1,e,πexp(z)−1−z
2(exp(|z|)−1−|z|)z20
Te wyniki (choć oczywiście ograniczone warunkami, które zostały nałożone) pomagają wyjaśnić, dlaczego straty kwadratowe są wszechobecne w teorii i praktyce statystycznej: w ograniczonym stopniu jest to analitycznie dogodny wskaźnik zastępczy dla dowolnej wypukłej różniczkowalnej funkcji straty.
Kwadratowa strata w żadnym wypadku nie jest jedyną, a nawet najlepszą stratą do rozważenia. Rzeczywiście, Lehman to pisze
W(F,d)
... [F] rosnące funkcje strat prowadzą do estymatorów, które wydają się być wrażliwe na założenia poczynione na temat [zachowania ogona [założonego rozkładu], a te założenia zwykle opierają się na niewielkiej ilości informacji, a zatem nie są bardzo niezawodny.
Okazuje się, że estymatory wytworzone przez kwadratową utratę błędów często są pod tym względem niewygodne.
[Lehman, sekcja 1.6; z pewnymi zmianami notacji.]
Rozważenie strat alternatywnych otwiera bogaty zestaw możliwości: regresję kwantową, estymatory M, solidne statystyki i wiele innych elementów można sformułować w sposób teoretyczny i uzasadnić za pomocą alternatywnych funkcji strat. Prosty przykład znajduje się w części Funkcje strat procentowych .
Bibliografia
Jack Carl Kiefer, Wprowadzenie do wnioskowania statystycznego. Springer-Verlag 1987.
EL Lehmann, Teoria szacowania punktów . Wiley 1983.