Rozważ następujące trzy zjawiska.
Paradoks Steina: biorąc pod uwagę niektóre dane z wielowymiarowego rozkładu normalnego w , średnia próbki nie jest bardzo dobrym estymatorem prawdziwej średniej. Można uzyskać oszacowanie z niższym średnim błędem do kwadratu, jeśli zmniejsza się wszystkie współrzędne średniej próbki w kierunku zera [lub w kierunku ich średniej, lub faktycznie w kierunku dowolnej wartości, jeśli dobrze rozumiem].
Uwaga: zwykle paradoksem Stein formułuje poprzez rozpatrywanie tylko jednego punktu danych z ; proszę mnie poprawić, jeśli jest to kluczowe, a moje sformułowanie powyżej jest nieprawidłowe.
Regresja grzbietowa: biorąc pod uwagę pewną zmienną zależną i niektóre zmienne niezależne , regresja standardowa ma tendencję do przekraczania danych i prowadzi do słabej wydajności poza próbą. Często można ograniczyć nadmierne dopasowanie zmniejszając do zera: .
Efekty losowe w modelach wielopoziomowych / mieszanych: biorąc pod uwagę pewną zmienną zależną (np. Wzrost ucznia), która zależy od niektórych predyktorów jakościowych (np. Identyfikator szkoły i płeć ucznia), często zaleca się traktowanie niektórych predyktorów jako „losowych”, tj. Przypuszczenie, że średni wzrost ucznia w każdej szkole pochodzi z pewnego rozkładu normalnego. Powoduje to zmniejszenie szacunków średniej wysokości na szkołę do średniej globalnej.
Mam wrażenie, że wszystko to jest różnymi aspektami tego samego zjawiska „kurczenia się”, ale nie jestem pewien i na pewno brakuje mi dobrej intuicji. Więc moje główne pytanie brzmi: czy rzeczywiście istnieje głębokie podobieństwo między tymi trzema rzeczami, czy jest to tylko pozór pozorny? Jaki jest tutaj wspólny motyw? Jaka jest właściwa intuicja?
Ponadto, oto kilka elementów tej układanki, które tak naprawdę nie pasują do mnie:
W regresji grzbietowej nie zmniejsza się równomiernie; skurcz grzbietu jest faktycznie związany z rozkładem wartości X w liczbie pojedynczej , przy czym kierunki o niskiej wariancji są bardziej zmniejszane (patrz np . Elementy uczenia statystycznego 3.4.1). Ale estymator Jamesa-Steina po prostu bierze średnią próbki i mnoży ją przez jeden współczynnik skalowania. Jak to do siebie pasuje?
Aktualizacja: patrz Estymator Jamesa-Steina z nierównymi wariancjami i np. Tutaj odnośnie wariancji współczynników .
Średnia próbki jest optymalna w wymiarach poniżej 3. Czy oznacza to, że gdy w modelu regresji występuje tylko jeden lub dwa predyktory, regresja grzbietu zawsze będzie gorsza niż zwykłe najmniejsze kwadraty? Właściwie, pomyśl o tym, nie wyobrażam sobie sytuacji w 1D (tj. Prostej regresji bez wielokrotności), w której skurcz kalenicy byłby korzystny ...
Aktualizacja: Nie. Patrz dokładnie, w jakich warunkach regresja kalenicy jest w stanie zapewnić poprawę w stosunku do zwykłej regresji metodą najmniejszych kwadratów?
Z drugiej strony średnia próbki jest zawsze nieoptymalna w wymiarach powyżej 3. Czy to oznacza, że przy więcej niż 3 predyktorach regresja grzbietu jest zawsze lepsza niż OLS, nawet jeśli wszystkie predyktory są nieskorelowane (ortogonalne)? Zwykle regresja kalenicy jest motywowana wielokoliniowością i potrzebą „stabilizacji” terminu .
Aktualizacja: Tak! Zobacz ten sam wątek jak powyżej.
Często toczy się gorąca dyskusja na temat tego, czy różne czynniki ANOVA powinny być uwzględniane jako efekty stałe czy losowe. Czy nie powinniśmy, zgodnie z tą samą logiką, traktować czynnik losowo, jeśli ma więcej niż dwa poziomy (lub jeśli istnieją więcej niż dwa czynniki? Teraz jestem zdezorientowany)?
Aktualizacja :?
Aktualizacja: otrzymałem kilka doskonałych odpowiedzi, ale żadna z nich nie zapewnia wystarczająco dużego obrazu, więc pozwolę, by pytanie „się otworzyło”. Mogę obiecać, że przyznam nagrodę w wysokości co najmniej 100 punktów za nową odpowiedź, która przewyższy istniejące. Głównie szukam ujednoliconego poglądu, który mógłby wyjaśnić, w jaki sposób ogólne zjawisko skurczu przejawia się w tych różnych kontekstach i wskazać podstawowe różnice między nimi.