Analiza regresji odpowiada na pytanie: „Jaka jest ŚREDNIA wartość Y dla tych, którzy dali wartości X?” lub równoważnie: „O ile przewiduje się zmianę Y POŚREDNIEJ, jeśli zmienimy X o jedną jednostkę?” Losowy błąd pomiaru nie zmienia średnich wartości zmiennej ani średnich wartości dla podzbiorów osób, więc losowy błąd w zmiennej zależnej nie spowoduje oszacowania regresji błędu.
Załóżmy, że masz dane dotyczące wzrostu na próbce osób. Wysokości te są bardzo dokładnie mierzone, dokładnie odzwierciedlając prawdziwą postawę każdego człowieka. W próbie średnia dla mężczyzn wynosi 175 cm, a dla kobiet 162 cm. Jeśli użyjesz regresji do obliczenia, na ile płeć przewiduje wzrost, oszacuj model
HEIGHT=CONSTANT+β∗GENDER+RESIDUAL
Jeśli kobiety są kodowane jako 0, a mężczyźni jako 1, jest średnią kobietą lub 162 cm. Współczynnik regresji pokazuje, o ile zmienia się wysokość NA ŚREDNIM, gdy zmienisz o jedną jednostkę (od 0 do 1). wynosi 13, ponieważ ludzie, których wartość dla wynosi 0 (kobiety), mają średnią wysokość 162 cm, a ludzie, których wartość dla wynosi 1 (mężczyźni), mają średnią wysokość 175 cm; szacuje średnią różnicę między wzrostem mężczyzn i kobiet, która wynosi 13 cm. ( odzwierciedla różnicę wysokości między płciami.)β G E N D E R β G E N D E R G E N D E R β R E S I D U A LCONSTANTβGENDERβGENDERGENDERβRESIDUAL
Teraz, jeśli losowo dodasz -1 cm lub +1 cm do prawdziwej wysokości każdego, co się stanie? Osoby, których rzeczywista wysokość, powiedzmy, 170 cm, będą teraz zgłaszane jako 169 lub 171 cm. Jednak średnia próbki lub dowolnej podpróbki nie zmieni się. Ci, których rzeczywista wysokość wynosi 170 cm, będą średnio 170 cm w nowym, błędnym zbiorze danych, kobiety będą miały 162 cm itd. Jeśli ponownie uruchomisz model regresji określony powyżej przy użyciu tego nowego zestawu danych, (oczekiwana) wartość nie zmieni się, ponieważ średnia różnica między kobietami i mężczyznami wciąż wynosi 13 cm, niezależnie od błędu pomiaru. (Standardowy błąd będzie większy niż wcześniej, ponieważ wariancja zmiennej zależnej jest teraz większa.)βββ
Jeśli występuje błąd pomiaru w zmiennej niezależnej zamiast zmiennej zależnej, będzie tendencyjnym oszacowaniem. Łatwo to zrozumieć, biorąc pod uwagę przykład wysokości. Jeśli w zmiennej wystąpi przypadkowy błąd pomiaru , niektórzy mężczyźni zostaną błędnie zakodowani jako kobiety i na odwrót. Efektem tego jest zmniejszenie pozornych różnic wysokości między płciami, ponieważ przeniesienie mężczyzn do grupy kobiet sprawi, że średnia kobiet będzie większa, a przeniesienie kobiet do grupy mężczyzn zmniejszy średnią mężczyzn. Przy błędzie pomiaru w zmiennej niezależnej będzie niższy niż bezstronna wartość 13 cm. G E N D E R ββGENDERβ
Chociaż dla uproszczenia użyłem kategorycznej zmiennej niezależnej ( ), ta sama logika dotyczy zmiennych ciągłych. Na przykład, jeśli użyjesz zmiennej ciągłej, takiej jak wysokość urodzenia, do przewidywania wzrostu osoby dorosłej, oczekiwana wartość będzie taka sama bez względu na liczbę błędów losowych w pomiarach wysokości dorosłych.βGENDERβ