Większość modeli regresji wielokrotnej zawiera stały składnik (tj. Punkt przecięcia), ponieważ zapewnia to, że model będzie bezstronny - tj. Średnia reszt będzie dokładnie równa zero. (Współczynniki w modelu regresji są szacowane przez najmniej kwadratów - tj. Minimalizując średni błąd kwadratu. Teraz średni błąd kwadratu jest równy wariancji błędów powiększonej o kwadrat ich średniej: jest to tożsamość matematyczna. Zmiana wartość stałej w modelu zmienia średnią błędów, ale nie wpływa na wariancję, dlatego też, aby suma błędów podniesionych do kwadratu miała zostać zminimalizowana, stała musi być tak dobrana, aby średnia błędów wynosiła zero. )
W prostym modelu regresji stała reprezentuje punkt przecięcia Y linii regresji w niestandaryzowanej formie. W modelu regresji wielokrotnej stała reprezentuje wartość, która byłaby przewidywana dla zmiennej zależnej, gdyby wszystkie zmienne niezależne były jednocześnie równe zeru - sytuacja, która może nie mieć znaczenia fizycznego ani ekonomicznego. Jeśli nie jesteś szczególnie zainteresowany tym, co by się stało, gdyby wszystkie zmienne niezależne były jednocześnie równe zeru, zwykle pozostawiasz stałą w modelu niezależnie od jej istotności statystycznej. Oprócz zapewnienia, że błędy w próbie są obiektywne, obecność stałej pozwala linii regresji „szukać własnego poziomu” i zapewniać najlepsze dopasowanie do danych, które mogą być tylko lokalnie liniowe.
Jednak w rzadkich przypadkach możesz chcieć wykluczyć stałą z modelu. Jest to opcja dopasowywania modelu w procedurze regresji w dowolnym pakiecie oprogramowania, i czasami jest nazywana regresją poprzez źródło lub w skrócie RTO. Zwykle dzieje się tak tylko wtedy, gdy:
- można sobie wyobrazić zmienne niezależne, które jednocześnie przyjmują wartość zero, i czujesz, że w tym przypadku logicznie powinno być tak, że zmienna zależna również będzie równa zero; albo
- stała jest zbędna z zestawem zmiennych niezależnych, których chcesz użyć.
Przykładem przypadku (1) byłby model, w którym wszystkie zmienne - zależne i niezależne - reprezentowały pierwsze różnice innych szeregów czasowych. Jeśli regresujesz pierwszą różnicę Y względem pierwszej różnicy X, bezpośrednio prognozujesz zmiany w Y jako liniową funkcję zmian w X, bez odniesienia do bieżących poziomów zmiennych. W takim przypadku uzasadnione może być (choć nie jest to wymagane) założenie, że Y powinien pozostać niezmieniony średnio za każdym razem, gdy X pozostaje niezmieniony - tj. Że Y nie powinien wykazywać tendencji wzrostowej lub spadkowej przy braku jakiejkolwiek zmiany poziom X.
Przykładem przypadku (2) może być sytuacja, w której chcesz użyć pełnego zestawu zmiennych wskaźnika sezonowego - np. Używasz danych kwartalnych i chcesz uwzględnić zmienne Q1, Q2, Q3 i Q4 reprezentujące dodatek efekty sezonowe. Zatem Q1 może wyglądać jak 1 0 0 0 1 0 0 0 ..., Q2 może wyglądać jak 0 1 0 0 0 1 0 0 ... i tak dalej. Nie można użyć wszystkich czterech i stałej w tym samym modelu, ponieważ Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. . . . , co jest tym samym co termin stały. Tzn. Pięć zmiennych Q1, Q2, Q3, Q4 i CONSTANT nie jest liniowo niezależnych: dowolną z nich można wyrazić jako kombinację liniową pozostałych czterech. Technicznym warunkiem wstępnym dopasowania modelu regresji liniowej jest to, że zmienne niezależne muszą być liniowo niezależne; w przeciwnym razie nie można jednoznacznie ustalić współczynników najmniejszych kwadratów,
Słowo ostrzeżenia: R-kwadrat i statystyki F nie mają tego samego znaczenia w modelu RTO jak w zwykłym modelu regresji i nie są obliczane w ten sam sposób przez wszystkie programy. Zobacz ten artykuł, aby zapoznać się z pewnymi zastrzeżeniami. Nie powinieneś próbować porównywać R-kwadrat między modelami, które zawierają i nie zawierają stałego terminu, chociaż porównanie błędu standardowego regresji jest w porządku.
Zauważ, że termin „niezależny” jest używany (co najmniej) na trzy różne sposoby w żargonie regresji: dowolną pojedynczą zmienną można nazwać zmienną niezależną, jeśli jest używana jako predyktor, a nie jako predyktor. Grupa zmiennych jest liniowo niezależna, jeśli żadnej z nich nie można wyrazić dokładnie jako liniowej kombinacji pozostałych. Mówi się, że para zmiennych jest statystycznie niezależna, jeśli są one nie tylko liniowo niezależne, ale również całkowicie nieinformacyjne względem siebie. W modelu regresji chcesz, aby zmienna zależna była statystycznie zależna od zmiennych niezależnych, które muszą być między sobą liniowo (ale niekoniecznie statystycznie) niezależne.