Dlaczego odległości pionowe?


11

Dlaczego oszacowanie OLS polega na przyjmowaniu odchyleń pionowych punktów od linii zamiast odległości poziomych?


1
Stare pytanie, ale myślę, że przeglądanie danych jako próbki rozkładu prawdopodobieństwa sparametryzowanego przez x jest przydatne
Bendy

Odpowiedzi:


12

OLS ( zwykłe najmniejsze kwadraty ) zakłada, że ​​wartości reprezentowane przez odległości poziome są albo z góry określone przez eksperymentatora, albo mierzone z dużą dokładnością (w stosunku do odległości pionowych). Gdy pojawia się pytanie o niepewność w odległościach poziomych, nie powinieneś używać OLS, ale zamiast tego powinieneś przyjrzeć się modelom błędów zmiennych lub, być może, analizie głównych składników .


„Regresja ortogonalna” to kolejna rzecz, na którą można się natknąć, szukając metod radzenia sobie z zanieczyszczonymi odciętymi i rzędnymi.
JM nie jest statystykiem

+1 To jest jeszcze nisza tylko w statystykach; bardziej złożone metody najmniejszych kwadratów (nie tylko dodawanie zmienności X, ale także różne kary za punkty oparte na przybliżeniach błędów) są powszechne w fizyce eksperymentalnej; Framework ROOT ma dziesiątki takich.

1

Interesujące pytanie. Moja odpowiedź brzmi: kiedy dopasowujemy model OLS, domyślnie i przede wszystkim staramy się przewidzieć / wyjaśnić dostępną zmienną zależną - „Y” w „Y vs X”. Jako taki, naszym głównym zmartwieniem byłoby zminimalizowanie odległości od naszej dopasowanej linii do rzeczywistych obserwacji w odniesieniu do wyniku, co oznacza zminimalizowanie odległości pionowej. To oczywiście określa pozostałości.

Ponadto formuły najmniejszych kwadratów są łatwiejsze do uzyskania niż większość innych konkurencyjnych metod, i być może dlatego pojawiła się na początku. : P

Jak wspomniano powyżej „whuber”, istnieją inne podejścia, które traktują X i Y z jednakowym naciskiem przy dopasowywaniu linii najlepiej dopasowanej. Jednym z takich podejść, które znam, jest regresja „linii głównych” lub „głównych krzywych”, która minimalizuje ortogonalne odległości między punktami i linią (zamiast linii błędu pionowego masz linie o 90 stopniach względem linii dopasowanej) . Poniżej zamieszczam jedno odniesienie do przeczytania. Jest długa, ale bardzo dostępna i pouczająca.

Mam nadzieję, że to pomaga, Brenden

  1. Trevor Hastie. Główne krzywe i powierzchnie , praca doktorska, Uniwersytet Stanforda; 1984

1

Prawdopodobnie dotyczy to również zaprojektowanych eksperymentów - jeśli x jest kontrolowaną wielkością, która jest częścią projektu eksperymentalnego, jest traktowana jako deterministyczna; podczas gdy y jest wynikiem i jest wielkością losową. x może być ciągłą wielkością (np. stężenie jakiegoś leku), ale może być podzieleniem 0/1 (co prowadzi do 2-próbnego testu t, zakładając, że y jest gaussowskie). Jeśli x jest wielkością ciągłą, może wystąpić błąd pomiaru, ale zazwyczaj, jeśli jest on znacznie mniejszy niż zmienność y, jest to ignorowane.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.