Związek między i jest następujący:ε^ε
ε^=(I−H)ε
gdzie , matryca kapelusz jest .HX(XTX)−1XT
To znaczy, że jest liniową kombinacją wszystkich błędów, ale zazwyczaj większość ciężaru spada na ty.ε^ii
Oto przykład z wykorzystaniem cars
zestawu danych w R. Rozważ punkt zaznaczony na fioletowo:
Nazwijmy to wskazywać . Resztkowe, , gdzie dla pozostałych błędów jest w zakresie -0,02:iε^i≈0.98εi+∑j≠iwjεjwj
Możemy przepisać to jako:
ε^i≈0.98εi+ηi
lub bardziej ogólnie
ε^i=(1−hii)εi+ηi
gdzie jest -tego elementu przekątnej . Podobnie powyższe to .hiiiHwjhij
Jeżeli błędy mają identyfikator wówczas w tym przykładzie ważona suma tych innych błędów będzie miała odchylenie standardowe odpowiadające około 1/7 wpływu błędu tej obserwacji na jego resztkową wartość .N(0,σ2)i
To znaczy, że w dobrze zachowanych regresjach resztki można w większości traktować jak umiarkowanie głośne oszacowanie nieobserwowalnego terminu błędu. Kiedy bierzemy pod uwagę punkty dalej od centrum, rzeczy działają nieco mniej ładnie (reszta staje się mniej ważona na błędzie, a wagi innych błędów stają się mniej równe).
Przy wielu parametrach lub przy nie tak dobrze rozłożonych, reszty mogą być znacznie mniej podobne do błędów. Możesz spróbować kilku przykładów.X