Powiedziałbym, że indywidualna liczba (taka jak liczba resztkowa), która wynikała z losowego losowania z rozkładu prawdopodobieństwa, jest wartością zrealizowaną , a nie zmienną losową . Podobnie, powiedziałbym, że zbiór reszt, obliczony na podstawie twoich danych i dopasowania modelu za pomocą , jest zbiorem zrealizowanych wartości. Ten zestaw liczb może być luźno konceptualizowany jako niezależne czerpanie z podstawowej dystrybucji ~ . (Niestety, istnieje tutaj kilka dodatkowych zawiłości. Na przykład tak naprawdę nie maszN.e=y−y^ϵN(μ,σ2)Nniezależne informacje, ponieważ reszty, , muszą spełniać dwa warunki: i ). e∑ei=0∑xiei=0
Teraz, biorąc pod uwagę pewien zestaw liczb, niezależnie od tego, czy są to reszty, czy cokolwiek innego, z pewnością jest prawdą, że mają one wariancję, , ale to nie jest interesujące. Chodzi nam o to, aby móc powiedzieć coś o procesie generowania danych (na przykład, aby oszacować wariancję rozkładu populacji). Korzystając z powyższego wzoru, możemy podać przybliżenie, zastępując resztkowymi stopniami swobody, ale może to nie być dobre przybliżenie. Jest to temat, który może bardzo szybko się skomplikować, ale kilka możliwych przyczyn może być heteroscedastycznością (tzn. Że wariancja populacji różni się na różnych poziomach ) i obecność wartości odstających∑(ei−e¯)2/NNx(tj. że dana reszta pochodzi całkowicie z innej populacji). Niemal na pewno w praktyce nie będziesz w stanie oszacować wariancji populacji, z której wyciągnięto wartość odstającą, ale teoretycznie ma ona wariancję. Podejrzewam, że coś podobnego do tego mieli na myśli autorzy, ale powinienem zauważyć, że nie przeczytałem tej książki.
Aktualizacja: po ponownym przeczytaniu pytania podejrzewam, że cytat może odnosić się do tego, w jaki sposób wartość punktu wpływa na dopasowaną linię regresji, a tym samym wartość reszty związanej z tym punktem. Kluczowym pomysłem, który należy tutaj zrozumieć, jest dźwignia . Omawiam te tematy w mojej odpowiedzi tutaj: Interpreting plot.lm () . x