Oszacowanie R-kwadrat i istotności statystycznej na podstawie modelu regresji karanej

Używam ukaranego pakietu R, aby uzyskać skurczone oszacowania współczynników dla zbioru danych, w którym mam dużo predyktorów i mało wiem, które z nich są ważne. Po wybraniu parametrów dostrajania L1 i L2 i jestem zadowolony z moich współczynników, czy istnieje statystycznie rozsądny sposób na podsumowanie dopasowania modelu z czymś w rodzaju R-kwadrat?

Ponadto jestem zainteresowany przetestowaniem ogólnego znaczenia modelu (tzn. Czy R² = 0, czy wykonam wszystkie = 0).

Przeczytałem odpowiedzi na podobne pytanie zadane tutaj , ale nie całkiem odpowiadało na moje pytanie. Jest to doskonały poradnik na opakowaniu R że używam tutaj , a autor Jelle Goeman miał następującą notatkę na koniec samouczka dotyczącego przedziałów ufności z ukaranych modeli regresji:

To bardzo naturalne pytanie, aby zadać standardowe błędy współczynników regresji lub innych oszacowanych wielkości. Zasadniczo takie standardowe błędy można łatwo obliczyć, np. Za pomocą paska startowego.

Mimo to ten pakiet celowo ich nie udostępnia. Powodem tego jest to, że standardowe błędy nie mają większego znaczenia w przypadku silnie tendencyjnych oszacowań, takich jak wynikające z karanych metod szacowania. Ocena karana to procedura, która zmniejsza wariancję estymatorów poprzez wprowadzenie istotnego błędu. Błąd systematyczny każdego estymatora jest zatem głównym składnikiem jego średniego błędu kwadratu, podczas gdy jego wariancja może przyczyniać się tylko niewielką część.

Niestety, w większości zastosowań regresji karnej niemożliwe jest uzyskanie wystarczająco dokładnego oszacowania błędu. Wszelkie obliczenia oparte na bootstrapie mogą dać jedynie ocenę wariancji szacunków. Wiarygodne szacunki błędu są dostępne tylko wtedy, gdy dostępne są wiarygodne obiektywne szacunki, co zwykle nie ma miejsca w sytuacjach, w których stosuje się szacunki karane.

Zgłoszenie standardowego błędu w oszacowaniu podlegającym karze opowiada zatem tylko część historii. Może dawać błędne wrażenie dużej precyzji, całkowicie ignorując niedokładność spowodowaną odchyłką. Z pewnością błędem jest tworzenie oświadczeń o zaufaniu, które opierają się wyłącznie na ocenie wariancji oszacowań, takich jak przedziały ufności oparte na bootstrapie.

— Stephen Turner
źródło

Oczywiście jednym ze sposobów, w jaki mogę szybko uzyskać oszacowanie R-kwadrat, jest dopasowanie modelu liniowego przewidującego dopasowane wartości z oryginalnych danych i wzięcie z tego kwadratu R. Ale wydaje się, że byłby to masowo przefałszowany i stronniczy szacunek R-kwadrat.

— Stephen Turner

Dodaję to jako komentarz, ponieważ zadaję „podobne” pytanie w pobliskim poście (więc nie wiem, czy kwalifikuję się jako udzielenie odpowiedzi ), ale w przypadku twojego pytania wydaje się, że możesz obliczyć R-kwadrat bez wymagania żadnego założenia dystrybucyjne (są one jednak potrzebne do testowania hipotez w zwykły sposób). Czy nie możesz użyć zestawu Hold Out do obliczenia r-squared lub użyć walidacji k-fold, jeśli nie masz wystarczającej ilości danych (przy każdym foldowaniu uruchom pełny karany proces i uśrednij r-kwadraty z każdego z foldów używane w armaturze)?

— B_Miner

k

$k$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

Odpowiedzi:

Moja pierwsza reakcja na podane przez Jelle komentarze to „bias-schmias”. Musisz uważać na to, co rozumiesz przez „dużą liczbę predyktorów”. Może to być „duże” w odniesieniu do:

Liczba punktów danych („duże p małe n”)
Czas potrzebny na zbadanie zmiennych
Koszt obliczeniowy odwrócenia gigantycznej matrycy

Moja reakcja była oparta na „dużym” w odniesieniu do punktu 1. Jest tak, ponieważ w tym przypadku zwykle warto obniżyć odchylenie w celu zmniejszenia otrzymanej wariancji. Odchylenie jest ważne tylko „na dłuższą metę”. Więc jeśli masz małą próbkę, to kogo obchodzi „długoterminowa”?

$R^2$ $R^2$

Idealnie ten „błąd prognozowania” powinien opierać się na kontekście sytuacji modelowania. Zasadniczo chcesz odpowiedzieć na pytanie „Jak dobrze mój model reprodukuje dane?”. Kontekst twojej sytuacji powinien być w stanie powiedzieć ci, co „jak dobrze” oznacza w prawdziwym świecie. Następnie musisz przełożyć to na jakieś równanie matematyczne.

P R E S S = \sum_{i = 1}^{N} (Y_{i} - {\hat{Y}}_{i, - i})^{2}

$PRESS=\sum_{i=1}^{N} (Y_{i}-\hat{Y}_{i,-i})^2$

{\hat{Y}}_{i, - i}

$\hat{Y}_{i,-i}$

Y_{i}

$Y_{i}$

Y_{i}

$Y_i$

N

$N$

T

$T$

M

$M$

G = \frac{T}{M}

$G=\frac{T}{M}$

N_{g} = \frac{N \times M}{T}

$N_{g}=\frac{N\times M}{T}$

P R E S S = \sum_{g = 1}^{G} \sum_{i = 1}^{N_{g}} (Y_{i g} - {\hat{Y}}_{i g, - g})^{2}

$PRESS=\sum_{g=1}^{G}\sum_{i=1}^{N_{g}} (Y_{ig}-\hat{Y}_{ig,-g})^2$

\frac{β_{L A S S O}}{β_{U N C O N S T R A I N E D}}

$\frac{\beta_{LASSO}}{\beta_{UNCONSTRAINED}}$

— prawdopodobieństwo prawdopodobieństwa
źródło

k

$k$

p > n

$p > n$

> 1

$> 1$

Pakiet R hdm i pakiet Stata lassopack wspierają wspólny test istotności dla lasso. Teoria pozwala, aby liczba predyktorów była duża w stosunku do liczby obserwacji. Teoria leżąca u podstaw testu i sposób jego zastosowania wyjaśniono pokrótce w dokumentacji HDM . Krótko mówiąc, opiera się na ramach karnej teorii opartej na teorii (opracowanej przez Belloni, Czernozhukova i Hansena i in.). Ten artykuł jest dobrym punktem wyjścia, jeśli chcesz dowiedzieć się więcej o teorii leżącej u podstaw. Jedynym minusem jest to, że test działa tylko dla lasso i (lasso z pierwiastkiem kwadratowym). Nie w przypadku innych metod regresji karnej.

Belloni, A., Chen, D., Czernozhukov, V. and Hansen, C. (2012), Rzadkie modele i metody dla instrumentów optymalnych z zastosowaniem do wybitnej domeny. Econometrica, 80: 2369-2429.

— aahr1
źródło

dodaj pełne odniesienie do artykułu (link może umrzeć)

— Antoine,