Dlaczego oszacowanie OLS polega na przyjmowaniu odchyleń pionowych punktów od linii zamiast odległości poziomych?
Dlaczego oszacowanie OLS polega na przyjmowaniu odchyleń pionowych punktów od linii zamiast odległości poziomych?
Odpowiedzi:
OLS ( zwykłe najmniejsze kwadraty ) zakłada, że wartości reprezentowane przez odległości poziome są albo z góry określone przez eksperymentatora, albo mierzone z dużą dokładnością (w stosunku do odległości pionowych). Gdy pojawia się pytanie o niepewność w odległościach poziomych, nie powinieneś używać OLS, ale zamiast tego powinieneś przyjrzeć się modelom błędów zmiennych lub, być może, analizie głównych składników .
Interesujące pytanie. Moja odpowiedź brzmi: kiedy dopasowujemy model OLS, domyślnie i przede wszystkim staramy się przewidzieć / wyjaśnić dostępną zmienną zależną - „Y” w „Y vs X”. Jako taki, naszym głównym zmartwieniem byłoby zminimalizowanie odległości od naszej dopasowanej linii do rzeczywistych obserwacji w odniesieniu do wyniku, co oznacza zminimalizowanie odległości pionowej. To oczywiście określa pozostałości.
Ponadto formuły najmniejszych kwadratów są łatwiejsze do uzyskania niż większość innych konkurencyjnych metod, i być może dlatego pojawiła się na początku. : P
Jak wspomniano powyżej „whuber”, istnieją inne podejścia, które traktują X i Y z jednakowym naciskiem przy dopasowywaniu linii najlepiej dopasowanej. Jednym z takich podejść, które znam, jest regresja „linii głównych” lub „głównych krzywych”, która minimalizuje ortogonalne odległości między punktami i linią (zamiast linii błędu pionowego masz linie o 90 stopniach względem linii dopasowanej) . Poniżej zamieszczam jedno odniesienie do przeczytania. Jest długa, ale bardzo dostępna i pouczająca.
Mam nadzieję, że to pomaga, Brenden
Prawdopodobnie dotyczy to również zaprojektowanych eksperymentów - jeśli x jest kontrolowaną wielkością, która jest częścią projektu eksperymentalnego, jest traktowana jako deterministyczna; podczas gdy y jest wynikiem i jest wielkością losową. x może być ciągłą wielkością (np. stężenie jakiegoś leku), ale może być podzieleniem 0/1 (co prowadzi do 2-próbnego testu t, zakładając, że y jest gaussowskie). Jeśli x jest wielkością ciągłą, może wystąpić błąd pomiaru, ale zazwyczaj, jeśli jest on znacznie mniejszy niż zmienność y, jest to ignorowane.