Kiedy regresja kwantowa jest gorsza niż OLS?


22

Oprócz wyjątkowych okoliczności, w których absolutnie musimy zrozumieć zależność średnią, jakie są sytuacje, w których badacz powinien wybrać OLS zamiast regresji kwantylowej?

Nie chcę, aby odpowiedź brzmiała „jeśli nie ma sensu rozumieć relacji ogona”, ponieważ moglibyśmy po prostu użyć regresji mediany jako substytutu OLS.


4
Myślę, że większość badaczy zajmowałaby się zarówno OLS, jak i regresją kwantową; różnice między metodami rzucą światło na to, co próbujesz wymodelować. W odniesieniu do OLS, jeśli podrzucisz założenia normalności, otrzymasz wiele dość dobrze udokumentowanej i dokładnej metodologii testowania, która jest dostępna w większości pakietów statystycznych.
Jonathan Lisic

Odpowiedzi:


18

Jeśli jesteś zainteresowany średnią, użyj OLS, jeśli w medianie, użyj kwantylu.

Jedną dużą różnicą jest to, że na średnią wpływ mają bardziej wartości odstające i inne ekstremalne dane. Czasami tego właśnie chcesz. Jednym z przykładów jest sytuacja, gdy zmienną zależną jest kapitał społeczny w sąsiedztwie. Obecność jednej osoby z dużym kapitałem społecznym może być bardzo ważna dla całego sąsiedztwa.


6
Pozwól mi podważyć twoje pierwsze zdanie. Zarówno OLS, jak i regresja kwantowa (QR) szacują dla procesu generowania danych y = X β + ε . Jeśli rozkład błąd ciężkich ogony β Q R jest bardziej wydajny niż β O L S . Niezależnie od chwili warunkowego dystrybucji P ( r | X ) interesuje nas, należy użyć jednego z p O L S i p Q Rβy=Xβ+εβ^QRβ^OLSP(y|X)β^OL.S.β^QRto jest bardziej wydajne.
Richard Hardy

Zgodnie z krytyką @RichardHardy tej odpowiedzi, mediana jest tylko jednym z kwantyli, które można oszacować. Ten artykuł Hyndmana wprowadza podejście, które nazywa przyspieszaniem regresji addytywnej kwantyli, które bada pełny zakres kwantyli, prognozowanie niepewności w danych inteligentnych liczników energii elektrycznej poprzez zwiększenie addytywnej regresji kwantyli ( tj . Explore.ieee.org/document/7423794 ).
Mike Hunter

15

Wydaje się, że zamieszanie w założeniu pytania. W drugim akapicie napisano: „moglibyśmy po prostu użyć regresji mediany jako substytutu OLS”. Zauważ, że cofnięcie warunkowej mediany na X jest (formą) regresji kwantylowej.

Jeśli błąd w podstawowym procesie generowania danych jest zwykle rozkładany (co można ocenić, sprawdzając, czy reszty są normalne), wówczas średnia warunkowa jest równa medianie warunkowej. Co więcej, każdy kwantyl, który może Cię zainteresować (np. 95 percentyl lub 37 percentyl), można określić dla danego punktu w wymiarze X za pomocą standardowych metod OLS. Główną zaletą regresji kwantowej jest to, że jest ona bardziej odporna niż OLS. Minusem jest to, że jeśli wszystkie założenia zostaną spełnione, będzie mniej wydajne (to znaczy, że będziesz potrzebować większej wielkości próby, aby osiągnąć tę samą moc / twoje oszacowania będą mniej precyzyjne).


12

Zarówno OLS, jak i regresja kwantylowa (QR) są technikami estymacji służącymi do oszacowania wektora współczynnika w modelu regresji liniowej y = X β + ε (w przypadku QR patrz Koenker (1978), s. 33, akapit drugi).β

y=Xβ+ε

Dla pewnych rozkładu błędu (na przykład tych o dużym ogony) QR estymator β Q R jest bardziej wydajny niż OLS estymator β O L S ; Przypomnijmy, że β O L S jest skuteczny tylko w klasie liniowych nieobciążonych estymatorów. Jest to główna motywacja dla Koenkera (1978), która sugeruje użycie QR zamiast OLS w różnych ustawieniach. Myślę, że dla każdej chwili rozkładu warunkowego P Y ( Y | X ) należy użyć jednego z P O L S iβ^QRβ^OL.S.β^OL.S.P.Y(y|X)β^OL.S., który jest bardziej skuteczny (proszę mnie poprawić, jeśli się mylę).β^QR

Obecnie odpowiedzieć na pytanie bezpośrednio QR jest „gorsze” od OLS (a zatem β O L S powinny być korzystne w porównaniu β Q R ), gdy β O L S jest bardziej wydajny niż β Q R . Jednym z takich przykładów jest rozkład błędów na Normalny.β^OL.S.β^QRβ^OL.S.β^QR

Referencje:

  • Koenker, Roger i Gilbert Bassett Jr. „Kwantyle regresji”. Econometrica: Journal of the Econometric Society (1978): 33-50.

3

Peter Flom miał świetną i zwięzłą odpowiedź, chcę ją tylko rozszerzyć. Najważniejszą częścią pytania jest to, jak zdefiniować „gorsze”.

Aby zdefiniować gorzej, musimy mieć pewne mierniki, a funkcję do obliczenia, jak dobre lub złe dopasowanie nazywamy funkcjami utraty.

Możemy mieć różne definicje funkcji straty, a każda definicja nie ma żadnego dobrego ani złego, ale inna definicja zaspokaja różne potrzeby. Dwie dobrze znane funkcje straty to utrata do kwadratu i utrata wartości bezwzględnej.

L.sq(y,y^)=ja(yja-y^ja)2)
L.zabs(y,y^)=ja|yja-y^ja|

Jeśli wykorzystamy kwadratową stratę jako miarę sukcesu, regresja kwantyli będzie gorsza niż OLS. Z drugiej strony, jeśli zastosujemy bezwzględną utratę wartości, regresja kwantowa będzie lepsza.

Oto odpowiedź Petera Folma:

Jeśli jesteś zainteresowany średnią, użyj OLS, jeśli w medianie, użyj kwantylu.


Myślę, że twój przykład może wprowadzać w błąd, ponieważ dotyczy dopasowania w próbie (co jest mało interesujące, ponieważ doskonale znamy naszą próbkę), a nie oczekiwanej straty w przypadku nowych obserwacji (gdy celem jest przewidywanie) lub utraty oszacowania wektora parametru ( kiedy celem jest wyjaśnienie). Zobacz komentarz pod odpowiedzią Petera Floma i moją odpowiedzią, aby uzyskać więcej szczegółów.
Richard Hardy

3

Y2)π

Jeśli chcesz oszacować średnią, nie możesz jej uzyskać z regresji kwantowej.

Jeśli chcesz oszacować średnią i kwantyle przy minimalnych założeniach (ale więcej założeń niż regresja kwantylowa), ale masz większą wydajność, użyj półparametrycznej regresji porządkowej. Daje to również prawdopodobieństwo przekroczenia. Szczegółowe studium przypadku znajduje się w moich notatkach z kursu RMS, w których wykazano w jednym zbiorze danych, że średni średni bezwzględny błąd oszacowania dla kilku parametrów (kwantyli i średniej) osiąga się za pomocą regresji porządkowej. Ale do samego oszacowania średniej OLS jest najlepszy, a do samego oszacowania kwantyli najlepsza była regresja kwantyli.

Y

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.