Dlaczego różnica kwadratowa jest tak często stosowana?

Bardzo często, gdy badam nowe metody i pojęcia statystyczne, napotykam kwadratową różnicę (lub średni błąd kwadratu lub mnogość innych epitetów). Na przykład, r Pearsona jest ustalane na podstawie średniej kwadratowej różnicy od linii regresji, którą leżą punkty. W przypadku ANOVA patrzysz na sumę kwadratów i tak dalej.

Rozumiem teraz, że wszystko do kwadratu gwarantuje, że dane z wartościami odstającymi naprawdę zostaną ukarane. Dlaczego jednak wykładnik jest używany dokładnie 2? Dlaczego nie 2.1, e, pi, czy cokolwiek innego? Czy jest jakiś szczególny powód, dla którego używa się 2, czy jest to tylko konwencja? Podejrzewam, że wyjaśnienie może mieć coś wspólnego z krzywą dzwonową, ale jestem całkiem pewien.

normal-distribution

— Speldosa
źródło

Po pierwsze, nadużywają terminu wykładniczy, który odnosi się do rzeczy, jak

zamiast

. Po drugie, spójrz na stats.stackexchange.com/questions/118/…, gdzie dokładnie omówiono ten temat.

a^{x}

$a^x$

x^{a}

$x^a$

— Russ Lenth

@rvl Dzięki, edytowałem ten termin z mojego pytania. I dzięki, sprawdzę to pytanie!

— Speldosa

Jeden dobry powód, dla którego się pojawiają, ostatecznie wynika z prostych formuł, które odnoszą wariancje sum do wariancji (i ewentualnie kowariancji) składników oraz zgrabne wyniki dotyczące rozkładu kwadratów. Jeśli powyższe pytanie @rvl odpowiada na twoje pytanie, rozważ zamknięcie pytania. Jeśli nie w pełni odpowiada na twoje pytanie, edytuj pytanie, aby podkreślić różnice między tym, co chcesz wiedzieć, a tym, co się tam dzieje.

— Glen_b

Myślę, że to jest inne pytanie niż inny (popularny) wątek dotyczący kwadratu. Istnieje różnica koncepcyjna między kwadratową funkcją straty (która na dole jest kluczem do odpowiedzi na to pytanie) a kwadratową w celu oceny odchyleń (która jest naciskiem drugiego wątku).

— whuber

Sprawdź tutaj i tutaj podobne problemy.

— Tim

Podejście teoretyczne do statystyki zapewnia głębokie wyjaśnienie. Mówi, że wyrównywanie różnic stanowi przybliżenie dla szerokiego zakresu funkcji strat, które (ilekroć można je uzasadnić) prowadzą do znacznego uproszczenia możliwych procedur statystycznych, które należy wziąć pod uwagę.

Niestety, wyjaśnienie, co to oznacza, i wskazanie, dlaczego tak jest, zajmuje dużo czasu. Notacja może szybko stać się niezrozumiała. To, co zamierzam tutaj zrobić, to jedynie naszkicowanie głównych pomysłów, przy niewielkim rozwinięciu. Aby uzyskać pełniejsze konta, zobacz referencje.

Standardowy, bogaty model danych zakłada, że są one realizacją (rzeczywistej, wektorowej) zmiennej losowej której rozkład jest znany tylko jako element pewnego zestawu rozkładów, stanów natury . Statystyczna procedura jest funkcją od przyjmujących wartości w pewnym zbiorze orzeczeń , w przestrzeni decyzyjnej. $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

Na przykład problem przewidywania lub klasyfikacji polegałby na połączeniu „zestawu treningowego” i „zestawu testowego danych”, a zamapuje na zestaw prognozowanych wartości dla zestawu testowego. Zbiór wszystkich możliwych wartości przewidywanych byłoby . $\mathbf x$ $t$ $\mathbf x$ $D$

Pełna teoretyczna dyskusja na temat procedur musi uwzględniać procedury randomizowane . Procedura losowa wybiera jedną lub dwie możliwe decyzje zgodnie z pewnym rozkładem prawdopodobieństwa (zależnym od danych ). Uogólnia to intuicyjny pomysł, że gdy dane wydają się nie rozróżniać dwóch alternatyw, następnie „rzucasz monetą”, aby zdecydować o konkretnej alternatywie. Wiele osób nie lubi randomizowanych procedur, sprzeciwiając się podejmowaniu decyzji w tak nieprzewidywalny sposób. $\mathbf x$

Cechą wyróżniającą teorii decyzji jest jego użycie funkcji utrata . $W$ Dla każdego stanu natury i decyzji , strata $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

to wartość liczbowa reprezentująca, jak „źle” byłoby podjąć decyzję gdy prawdziwym stanem natury jest : małe straty są dobre, duże straty są złe. Na przykład w sytuacji testowania hipotezy ma dwa elementy: „zaakceptuj” i „odrzuć” (hipoteza zerowa). Funkcja strat kładzie nacisk na podjęcie właściwej decyzji: jest ustawiona na zero, gdy decyzja jest poprawna, a poza tym jest pewne stałe . (To się nazywa „ utrata funkcji:” wszystkie złe decyzje są równie złe, a wszystkie decyzje dobre są równie dobre.) W szczególności, , gdy $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ jest w hipotezie zerowej, a gdy jest w hipotezie alternatywnej. $F$ $W(F,\text{ reject})=0$ $F$

Podczas korzystania z procedury utratę danych gdy prawdziwym stanem natury jest można zapisać . To sprawia, że strata zmienną losową , której rozkład jest określona przez (The nieznane) . $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

$t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

$W$ $W$ $1/w$ $w=1$ $0-1$

$0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$ ). W tym widzimy, jak całość klasycznej (częstej) teorii testowania hipotez stanowi konkretny sposób porównywania funkcji ryzyka dla szczególnego rodzaju straty.

$\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

$W$

Chcielibyśmy zatem wiedzieć, jak zmieniłby się wybór najlepszej procedury po zmianie straty? Okazuje się, że w wielu powszechnych, praktycznych sytuacjach można tolerować pewną zmienność bez zmiany najlepszej procedury. Sytuacje te charakteryzują następujące warunki:

Przestrzeń decyzyjna jest zbiorem wypukłym (często przedział liczb). Oznacza to, że każda wartość leżąca między dowolnymi dwiema decyzjami jest również ważną decyzją.
Strata wynosi zero, gdy podejmowana jest najlepsza możliwa decyzja, a w przeciwnym razie wzrasta (aby odzwierciedlić rozbieżności między decyzją, która została podjęta, a najlepszą, którą można podjąć dla prawdziwego - ale nieznanego - stanu natury).
$0-1$

$W$

(1) Nie musimy brać pod uwagę randomizowanych procedur [Lehmann, wniosek 6.2].

$t$ $W$ $t^{*}$ $W$

$\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

$W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

$w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ $\bar x$ $W$

$n$

$z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

Postać

$2(\exp(|z|)-1-|z|)$ $z^2$ $0$

Te wyniki (choć oczywiście ograniczone warunkami, które zostały nałożone) pomagają wyjaśnić, dlaczego straty kwadratowe są wszechobecne w teorii i praktyce statystycznej: w ograniczonym stopniu jest to analitycznie dogodny wskaźnik zastępczy dla dowolnej wypukłej różniczkowalnej funkcji straty.

Kwadratowa strata w żadnym wypadku nie jest jedyną, a nawet najlepszą stratą do rozważenia. Rzeczywiście, Lehman to pisze

$W(F, d)$

... [F] rosnące funkcje strat prowadzą do estymatorów, które wydają się być wrażliwe na założenia poczynione na temat [zachowania ogona [założonego rozkładu], a te założenia zwykle opierają się na niewielkiej ilości informacji, a zatem nie są bardzo niezawodny.

Okazuje się, że estymatory wytworzone przez kwadratową utratę błędów często są pod tym względem niewygodne.

[Lehman, sekcja 1.6; z pewnymi zmianami notacji.]

Rozważenie strat alternatywnych otwiera bogaty zestaw możliwości: regresję kwantową, estymatory M, solidne statystyki i wiele innych elementów można sformułować w sposób teoretyczny i uzasadnić za pomocą alternatywnych funkcji strat. Prosty przykład znajduje się w części Funkcje strat procentowych .

Bibliografia

Jack Carl Kiefer, Wprowadzenie do wnioskowania statystycznego. Springer-Verlag 1987.

EL Lehmann, Teoria szacowania punktów . Wiley 1983.

— Whuber
źródło

Właściwości geometryczne tego pomiaru odległości są takie, że będzie on łatwy w użyciu.

I oczywiście łatwiejsza matematyka, jeśli masz analityczne rozwiązanie większości problemów.

— Analityk
źródło

Może mógłbyś rozwinąć nieco więcej?

— Tim

@Tim, nierówność trójkąta i matematyczne właściwości form kwadratowych przyszły mi do głowy ...

— Analityk

Dla każdej metryki odległości istnieje nierówność trójkąta. Tym, co wyróżnia odległość euklidesowa / 2 normy / różnicę kwadratową / MSE, jest duży zestaw transformacji, który ją zachowuje (wszystkie macierze ortogonalne).

— Federico Poloni,