Po pierwsze, powinienem stwierdzić, że szukałem odpowiedzi na tej stronie. Albo nie znalazłem pytania, które odpowiedziałoby na moje pytanie, albo mój poziom wiedzy jest tak niski, że nie zdawałem sobie sprawy, że już przeczytałem odpowiedź.
Studiuję do egzaminu AP Statistics. Muszę nauczyć się regresji liniowej, a jednym z tematów są resztki. Mam kopię Wstępu do statystyki i analizy danych na stronie 253.
Nietypowe punkty zestawu danych dwuwymiarowych są te, które wchodzą od większości innych punktach rozrzutu albo w kierunku lub kierunku
Obserwacja jest potencjalnie obserwacją wpływową, jeśli ma wartość która jest daleko od reszty danych (oddzielona od reszty danych w kierunku ). Aby ustalić, czy obserwacja rzeczywiście ma wpływ, oceniamy, czy usunięcie tej obserwacji ma duży wpływ na wartość nachylenia czy przecięcie linii najmniejszych kwadratów.
Obserwacja jest wartością odstającą, jeśli ma dużą resztę. Obserwacje skrajne wypadają daleko od linii najmniejszych kwadratów w kierunku .
Stattreck.com podaje cztery metody określania wartości odstającej od pozostałości:
Punkty danych, które znacznie odbiegają od ogólnego wzorca, nazywane są wartościami odstającymi. Istnieją cztery sposoby uznania punktu danych za wartość odstającą.
- Może mieć ekstremalną wartość X w porównaniu do innych punktów danych.
- Może mieć ekstremalną wartość Y w porównaniu do innych punktów danych.
- Może mieć ekstremalne wartości X i Y.
- Może być odległy od reszty danych, nawet bez ekstremalnych wartości X lub Y.
Te dwa źródła wydają się ze sobą sprzeczne. Czy ktoś mógłby pomóc mi wyjaśnić moje zamieszanie. Jak zdefiniować ekstremum. Statystyka AP używa reguły, jeśli punkt danych znajduje się poza (Q1-1.5IQR, Q3 + 1.5IQR), jest to wartość odstająca. Nie wiem, jak to zastosować na podstawie wykresu z reszt.