1) Dlaczego szkody wyrządzone przez wprowadzenie uprzedzeń są mniejsze w porównaniu ze wzrostem wariancji?
To nie musi, to po prostu zwykle jest. To, czy warto go wymienić, zależy od funkcji straty. Ale rzeczy, na których nam zależy w życiu, są często podobne do błędu kwadratu (np. Bardziej zależy nam na jednym dużym błędzie niż na dwóch błędach o połowę mniejszych).
Jako kontrprzykład - wyobraź sobie, że w przypadku przyjęć do college'u zmniejszamy wyniki SAT ludzi w stosunku do średniej SAT dla ich demografii (jakkolwiek zdefiniowanej). Jeśli zostanie to właściwie wykonane, zmniejszy to wariancję i średni kwadratowy błąd w szacunkach (pewnego rodzaju) zdolności osoby podczas wprowadzania uprzedzeń. Większość ludzi twierdzi, że taki kompromis jest niedopuszczalny.
2) Dlaczego to zawsze działa?
3) Co jest takiego interesującego w 0 (pochodzeniu)? Oczywiście możemy skurczyć się w dowolnym miejscu (np. Estymator Stein), ale czy będzie działać tak dobrze, jak jego pochodzenie?
Myślę, że dzieje się tak, ponieważ zwykle zmniejszamy współczynniki lub oszacowania efektów. Istnieją powody, by sądzić, że większość efektów nie jest duża (patrz np. Ujęcie Andrew Gelmana ). Jednym ze sposobów jest to, że świat, w którym wszystko wpływa na wszystko z silnym skutkiem, jest brutalnym nieprzewidywalnym światem. Ponieważ nasz świat jest wystarczająco przewidywalny, aby pozwolić nam żyć długo i budować półstabilne cywilizacje, wynika z tego, że większość efektów nie jest duża.
Ponieważ większość efektów nie jest duża, przydatne jest nieprawidłowe pomniejszenie kilku naprawdę dużych, a jednocześnie prawidłowe zmniejszenie mnóstwa efektów nieznaczących.
Wierzę, że to tylko własność naszego świata i prawdopodobnie moglibyście zbudować samowystarczalne światy, w których skurcz nie jest praktyczny (najprawdopodobniej przez uczynienie błędu średniej kwadratowej niepraktyczną funkcją straty). To po prostu nie jest świat, w którym żyjemy.
Z drugiej strony, kiedy myślimy o skurczu jako wcześniejszym rozkładzie w analizie Bayesa, istnieją przypadki, w których skurcz do 0 jest aktywnie szkodliwy w praktyce.
Jednym z przykładów jest skala długości w procesach gaussowskich (gdzie 0 jest problematyczne). Zaleceniem w podręczniku Stana jest użycie przedrostka, który zbliża nieznaczną wagę do zera, tj. Skutecznie „zmniejsza” małe wartości od zera. Podobnie zalecane priory dla dyspersji w ujemnym rozkładzie dwumianowym skutecznie kurczą się od zera. I na koniec, ilekroć rozkład normalny jest precyzyjnie parametryzowany (jak w INLA), przydatne jest użycie odwrotnej gamma lub innych wcześniejszych rozkładów, które zmniejszają się od zera.
4) Dlaczego różne uniwersalne schematy kodowania preferują mniejszą liczbę bitów wokół źródła? Czy te hipotezy są po prostu bardziej prawdopodobne?
P.( i ) ≥ P( i + 1 )ja