Dlaczego skurcz naprawdę działa, co jest takiego specjalnego w 0?

Na tej stronie jest już post mówiący o tym samym problemie: Dlaczego działa skurcz?

Ale mimo że odpowiedzi są popularne, nie sądzę, aby sedno pytania zostało naprawdę rozwiązane. Oczywiste jest, że wprowadzenie błędu systematycznego w estymacji powoduje zmniejszenie wariancji i może poprawić jakość estymacji. Jednak:

1) Dlaczego szkody wyrządzone przez wprowadzenie uprzedzeń są mniejsze w porównaniu ze wzrostem wariancji?

2) Dlaczego to zawsze działa? Na przykład w przypadku regresji Ridge'a: twierdzenie o istnieniu

3) Co jest takiego interesującego w 0 (pochodzeniu)? Oczywiście możemy skurczyć się w dowolnym miejscu (np. Estymator Stein ), ale czy będzie działać tak dobrze, jak jego pochodzenie?

4) Dlaczego różne uniwersalne schematy kodowania preferują mniejszą liczbę bitów wokół źródła? Czy te hipotezy są po prostu bardziej prawdopodobne?

Oczekuje się odpowiedzi z odniesieniami do sprawdzonych twierdzeń lub ustalonych wyników.

regularization ridge-regression shrinkage

— Cagdas Ozgenc
źródło

@ KarolisKoncevičius, dzięki za naprawienie linków! Pragnę jednak zauważyć, że twoje edycje językowe mogą nie być bardzo pomocne, z wyjątkiem ostatniej. Inne wydają się dodawać zbędny tekst, przez co post jest nieco mniej czytelny.

— Richard Hardy

3) „co jest takiego interesującego w pochodzeniu?” jak rozumiesz to stwierdzenie ?. jeśli masz czynnik grupowy (np. kraj) i czynnik indywidualny (np. miasto), wówczas skurcz ustawi średnią na poziomie kraju, a następnie tylko odchylenia na poziomie miasta z wystarczającą ilością danych będą miały współczynnik) - tzn. twój model zostanie przesunięty na poziom grupy (w kraju) średnia (poprzez przesunięcie współczynników poziomu miasta do zera) ... i podobnie dla większej liczby poziomów w hierarchiach (i wielu hierarchiach)

— seanv507

Odpowiedzi:

1) Dlaczego szkody wyrządzone przez wprowadzenie uprzedzeń są mniejsze w porównaniu ze wzrostem wariancji?

To nie musi, to po prostu zwykle jest. To, czy warto go wymienić, zależy od funkcji straty. Ale rzeczy, na których nam zależy w życiu, są często podobne do błędu kwadratu (np. Bardziej zależy nam na jednym dużym błędzie niż na dwóch błędach o połowę mniejszych).

Jako kontrprzykład - wyobraź sobie, że w przypadku przyjęć do college'u zmniejszamy wyniki SAT ludzi w stosunku do średniej SAT dla ich demografii (jakkolwiek zdefiniowanej). Jeśli zostanie to właściwie wykonane, zmniejszy to wariancję i średni kwadratowy błąd w szacunkach (pewnego rodzaju) zdolności osoby podczas wprowadzania uprzedzeń. Większość ludzi twierdzi, że taki kompromis jest niedopuszczalny.

2) Dlaczego to zawsze działa?

3) Co jest takiego interesującego w 0 (pochodzeniu)? Oczywiście możemy skurczyć się w dowolnym miejscu (np. Estymator Stein), ale czy będzie działać tak dobrze, jak jego pochodzenie?

Myślę, że dzieje się tak, ponieważ zwykle zmniejszamy współczynniki lub oszacowania efektów. Istnieją powody, by sądzić, że większość efektów nie jest duża (patrz np. Ujęcie Andrew Gelmana ). Jednym ze sposobów jest to, że świat, w którym wszystko wpływa na wszystko z silnym skutkiem, jest brutalnym nieprzewidywalnym światem. Ponieważ nasz świat jest wystarczająco przewidywalny, aby pozwolić nam żyć długo i budować półstabilne cywilizacje, wynika z tego, że większość efektów nie jest duża.

Ponieważ większość efektów nie jest duża, przydatne jest nieprawidłowe pomniejszenie kilku naprawdę dużych, a jednocześnie prawidłowe zmniejszenie mnóstwa efektów nieznaczących.

Wierzę, że to tylko własność naszego świata i prawdopodobnie moglibyście zbudować samowystarczalne światy, w których skurcz nie jest praktyczny (najprawdopodobniej przez uczynienie błędu średniej kwadratowej niepraktyczną funkcją straty). To po prostu nie jest świat, w którym żyjemy.

Z drugiej strony, kiedy myślimy o skurczu jako wcześniejszym rozkładzie w analizie Bayesa, istnieją przypadki, w których skurcz do 0 jest aktywnie szkodliwy w praktyce.

Jednym z przykładów jest skala długości w procesach gaussowskich (gdzie 0 jest problematyczne). Zaleceniem w podręczniku Stana jest użycie przedrostka, który zbliża nieznaczną wagę do zera, tj. Skutecznie „zmniejsza” małe wartości od zera. Podobnie zalecane priory dla dyspersji w ujemnym rozkładzie dwumianowym skutecznie kurczą się od zera. I na koniec, ilekroć rozkład normalny jest precyzyjnie parametryzowany (jak w INLA), przydatne jest użycie odwrotnej gamma lub innych wcześniejszych rozkładów, które zmniejszają się od zera.

4) Dlaczego różne uniwersalne schematy kodowania preferują mniejszą liczbę bitów wokół źródła? Czy te hipotezy są po prostu bardziej prawdopodobne?

$P(i) ≥ P(i + 1)$ $i$

— Martin Modrák
źródło

Odpowiedź na 1) jest naprawdę dobra!

— David

Najwyraźniej Andrew Gelman miał na myśli standardowe modele, w których mnożymy współczynniki przez dane wejściowe. To niekoniecznie musi tak być. Co jeśli my współczynnik odwrotnie wchodzi w model? Wtedy 0 wysadzi wszystko w powietrze.

— Cagdas Ozgenc

@CowboyTrader Tak i istnieją rzeczywiste przypadki użycia, w których 0 jest problematyczne, a my zmniejszamy się (dodajemy do odpowiedzi). Sądzę więc, że nieco popiera to, że kurczenie się do zera jest po prostu heurystyką, która często działa (w praktyce) często, ale nie podstawową prawdą matematyczną.

— Martin Modrák

Przepraszam za moją pierwszą reakcję. Twoja odpowiedź nabiera coraz większego znaczenia. Należy pamiętać, że skurcz działa w przypadku innych funkcji utraty, nie tylko w przypadku straty kwadratowej. Prawdziwym problemem, o który mi chodzi, jest to, dlaczego do cholery zawsze działa? Dla parametrów średniej / lokalizacji 0 wydaje się być liczbą magiczną.

— Cagdas Ozgenc

σ

$\sigma$

Grzbiet, lasso i siatka elastyczna są podobne do metod bayesowskich z priorytetami wyśrodkowanymi na zera - patrz na przykład Statystyczna nauka ze sparitysem Hastiego, Tibshirani i Wainwrighta, rozdział 2.9 Lq Penalties and Bayes Estimates: „Istnieje również bayesowski pogląd na te estymatory. ... Oznacza to, że oszacowanie lasso jest estymatorem Bayesian MAP (maksymalne aposteriori) przy użyciu wcześniejszego Laplaciana. ”

Jednym ze sposobów na odpowiedź na twoje pytanie ( what's so special about zero?) jest to, że szacowane przez nas efekty wynoszą średnio zero, i wydają się być niewielkie (tj. Nasze priorytety powinny być wyśrodkowane wokół zera). Zmniejszenie wartości szacunkowych do zera jest wówczas optymalne w sensie bayesowskim, a przez tę soczewkę można myśleć o lasso, grzbiecie i elastycznych sieciach.

— Adrian
źródło

Skurczenie do zera nie jest niczym specjalnym (z wyjątkiem tego, że równanie jest prostsze, ponieważ wystarczy pomnożyć wynik przez określony współczynnik). Możesz również skurczyć się do dowolnego innego punktu. Im dalej ten punkt jest od wartości rzeczywistej, tym gorsza jest wydajność kurczenia (ale w pewnym momencie istnieje pewna ilość kurczenia, która da pewien wzrost wydajności ... przynajmniej dla zmiennych rozproszonych gaussowskich). Kiedy więc wynik jest zwykle daleki od zera, wówczas zmniejszenie do zera da tylko bardzo niewielką poprawę.

— Sextus Empiricus

@MartijnWeterings Wyraźne uprzedzenie samej prawdy będzie idealne (strzał w dziesiątkę). Ale dlaczego zmniejszenie do 0 nadal daje pewną poprawę? Właśnie o to mi chodzi.

— Cagdas Ozgenc

@CowboyTrader Zmniejszenie do dowolnej wartości daje poprawę. Dlatego działa również dla 0.

— Sextus Empiricus

@MartijnWeterings Tak, ale granice teorii uczenia się są prawie zawsze oparte na pochodzeniu. Umieszczają piłkę / wielościan / itp. Na środku. Czy to tylko dowód wygody? Kodowanie hipotez MDL koduje liczby całkowite, podając 0 najkrótszą długość kodu? Czy to przypadek?

— Cagdas Ozgenc

Powiedzmy, że wykonujesz regresję grzbietu w przypadku, gdy wszystkie zmienne są rzeczywiście częścią modelu (co nie jest powszechne w praktyce), to nie będzie działać tak dobrze. Może to właśnie miał na myśli Adrian przez „efekty są średnio zerowe i wydają się być małe” (nie znam przypadków, w których jest to prawdą. Ale jest wiele przypadków uczenia maszynowego, w których karmimy dużo parametry i tam, gdzie wiele z nich prawdopodobnie nie jest potrzebnych, większość efektów jest zerowa lub niewielka.)

— Sextus Empiricus