Wpływowa wartość rezydualna vs. wartość odstająca

Po pierwsze, powinienem stwierdzić, że szukałem odpowiedzi na tej stronie. Albo nie znalazłem pytania, które odpowiedziałoby na moje pytanie, albo mój poziom wiedzy jest tak niski, że nie zdawałem sobie sprawy, że już przeczytałem odpowiedź.

Studiuję do egzaminu AP Statistics. Muszę nauczyć się regresji liniowej, a jednym z tematów są resztki. Mam kopię Wstępu do statystyki i analizy danych na stronie 253.

Nietypowe punkty zestawu danych dwuwymiarowych są te, które wchodzą od większości innych punktach rozrzutu albo w kierunku lub kierunku $x$ $y$

Obserwacja jest potencjalnie obserwacją wpływową, jeśli ma wartość która jest daleko od reszty danych (oddzielona od reszty danych w kierunku ). Aby ustalić, czy obserwacja rzeczywiście ma wpływ, oceniamy, czy usunięcie tej obserwacji ma duży wpływ na wartość nachylenia czy przecięcie linii najmniejszych kwadratów. $x$ $x$

Obserwacja jest wartością odstającą, jeśli ma dużą resztę. Obserwacje skrajne wypadają daleko od linii najmniejszych kwadratów w kierunku . $y$

Stattreck.com podaje cztery metody określania wartości odstającej od pozostałości:

Punkty danych, które znacznie odbiegają od ogólnego wzorca, nazywane są wartościami odstającymi. Istnieją cztery sposoby uznania punktu danych za wartość odstającą.

Może mieć ekstremalną wartość X w porównaniu do innych punktów danych.

Może mieć ekstremalną wartość Y w porównaniu do innych punktów danych.

Może mieć ekstremalne wartości X i Y.

Może być odległy od reszty danych, nawet bez ekstremalnych wartości X lub Y.

Te dwa źródła wydają się ze sobą sprzeczne. Czy ktoś mógłby pomóc mi wyjaśnić moje zamieszanie. Jak zdefiniować ekstremum. Statystyka AP używa reguły, jeśli punkt danych znajduje się poza (Q1-1.5IQR, Q3 + 1.5IQR), jest to wartość odstająca. Nie wiem, jak to zastosować na podstawie wykresu z reszt.

regression outliers residuals

— MaoYiyi
źródło

Odpowiedzi:

Witryna stattrek wydaje się mieć znacznie lepszy opis wartości odstających i wpływowych niż twój podręcznik, ale zacytowałeś tylko krótki fragment, który może wprowadzać w błąd. Nie mam tej konkretnej książki, więc nie mogę jej zbadać w kontekście. Pamiętaj jednak, że cytowany fragment podręcznika mówi „potencjalnie”. To też nie jest wyłączne. Mając to na uwadze, stattrek i twoja książka niekoniecznie się nie zgadzają. Ale wydaje się, że twoja książka wprowadza w błąd w tym sensie, że sugeruje (z tego krótkiego fragmentu), że jedyną różnicą między wartościami odstającymi i wpływowymi punktami jest to, czy odchylają się one na osi x czy y. To jest niepoprawne

„Reguła” dla wartości odstających różni się w zależności od kontekstu. Przytaczana przez ciebie reguła jest tylko praktyczną regułą i tak, nie jest tak naprawdę przeznaczona do regresji. Istnieje kilka sposobów korzystania z niego. Wizualizacja może być łatwiejsza, jeśli wyobrażasz sobie wiele wartości y dla każdego x i badanie reszt. Typowe przykłady regresji podręczników są zbyt proste, aby zobaczyć, jak może działać ta reguła wartości odstających, aw większości rzeczywistych przypadków jest ona zupełnie bezużyteczna. Mamy nadzieję, że w prawdziwym życiu gromadzisz znacznie więcej danych. Jeśli konieczne jest zastosowanie reguły kwantylu dla wartości odstających w stosunku do problemu regresji, powinni oni podać dane, dla których jest to właściwe.

— Jan
źródło

Dzięki za odpowiedź, denerwujące jest to, że różne książki próbują określić te zasady, nie mówiąc, że tak naprawdę, jak mówisz, zależy to od danych.

— MaoYiyi

Właściwie to też stwierdziłem, że to źle ... to zależy od teorii, metody i danych ... całego badania.

— John

Zgadzam się z Johnem. Oto kilka dodatkowych punktów. Obserwacja wpływowa (ściśle) ma wpływ na oszacowanie parametrów. Niewielkie odchylenie wartości Y daje dużą zmianę w szacowanych parametrach beta. W prostej regresji jednej zmiennej względem drugiej zmiennymi wpływowymi są dokładnie te, których wartość X jest odległa od średniej X. W regresji wielokrotnej (kilka zmiennych niezależnych) sytuacja jest bardziej złożona. Musisz spojrzeć na przekątną tak zwanej macierzy kapelusza , a oprogramowanie regresji da ci to. „Dźwignia” Google. $X(X'X)^{-1}X'$

Wpływ jest funkcją punktów projektowych (wartości X), jak stwierdza twój podręcznik.

Zauważ, że wpływ to moc. W zaprojektowanym eksperymencie potrzebujesz wpływowych wartości X, zakładając, że możesz dokładnie zmierzyć odpowiednią wartość Y. W ten sposób zyskujesz więcej.

Dla mnie wartość odstająca jest w zasadzie błędem - to znaczy obserwacją, która nie jest zgodna z tym samym modelem, co reszta danych. Może się to zdarzyć z powodu błędu gromadzenia danych lub dlatego, że ten konkretny temat był w jakiś sposób niezwykły.

Nie podoba mi się definicja wartości odstającej z stattrek z kilku powodów. Regresja nie jest symetryczna w Y i X. Y jest modelowany jako zmienna losowa i zakłada się, że X są ustalone i znane. Dziwność w Y nie jest tym samym, co dziwność w X. Wpływ i nietypowość oznaczają różne rzeczy. Wpływ w regresji wielokrotnej nie jest wykrywany na podstawie wykresów resztkowych. Dobry opis wartości odstających i wpływ na przypadek pojedynczej zmiennej powinien przygotować cię do zrozumienia również przypadku wielokrotnego.

Jeszcze bardziej nie lubię twojego podręcznika z powodów podanych przez Jana.

Podsumowując, wpływowe wartości odstające są niebezpieczne. Należy je dokładnie zbadać i zająć się nimi.

— Placidia
źródło

Twoja niechęć do wyjaśnienia regresji stattrek jest odpowiednia, jeśli pochodzisz z tła, w którym prawdziwe eksperymenty są normą. Twoje powody mają tutaj zastosowanie. Ale jeśli pochodzisz z tła, w którym projekty quasi-eksperymentalne są bardziej powszechne, witryna stattrek ma większe znaczenie. W takich przypadkach wartości xiy są często tylko przypadkowymi próbkami.

— John

@John, co powiesz na to, jak chcesz zdać egzamin AP? Co to jest quasi-eksperymentalny projekt? Czy używasz tabeli liczb losowych do symulacji?

— MaoYiyi

Nic nie wiem o egzaminie statystycznym AP. Prawdziwe eksperymenty to takie, w których manipulujesz zmienną predykcyjną i tworzysz grupy w celu przetestowania wielu hipotez lub kontroli i grup eksperymentalnych, itp. Projekty quasi-eksperymentalne to właściwie wszystko inne, co wygląda jak eksperyment. Wyobraźmy sobie zatem regresję, w której wartość x to waga, a wartość y to pewne umiejętności sportowe. Nie manipulujesz żadną zmienną, losowo próbkujesz obie. Tak więc krytyka statidka przez Placidię jest słuszna dla prawdziwych eksperymentów, ale nie tak bardzo dla quasi-eksperymentów.

— John

@John ... Pochodzę z tła, w którym zaprojektowane eksperymenty są postrzegane jako złoty standard. W praktyce wiem, że X i Y są często próbkami losowymi, co nasuwa pytanie, dlaczego stosuje się regresję, a nie jakąś formę analizy zmiennych utajonych.

— Placidia

Gdy masz tylko dwie zmienne ... :) Czasem masz dobrą teorię, która sugeruje, że jedna rzecz przewiduje drugą, na przykład wysokość i prawdopodobieństwo dostania się do NBA ... obie losowe próbki. W przypadkach z jednym lub kilkoma (szczególnie nieskorelowanymi) regresja relacji liniowych jest dobra.

— John