Prawdopodobnie wybrałbym twój oryginalny model z pełnym zestawem danych. Ogólnie uważam te rzeczy za ułatwiające analizy wrażliwości. Oznacza to, że wskazują ci, co należy sprawdzić, aby upewnić się, że nie masz określonego wyniku tylko z powodu czegoś głupiego. W twoim przypadku masz kilka potencjalnie wpływowych punktów, ale jeśli ponownie uruchomisz model bez nich, uzyskasz merytorycznie tę samą odpowiedź (przynajmniej w odniesieniu do aspektów, które prawdopodobnie Cię interesują). Innymi słowy, użyj dowolnego progu, który ci się podoba - model instalujesz tylko jako czek, a nie „prawdziwą” wersję. Jeśli uważasz, że inne osoby będą wystarczająco zaniepokojone potencjalnymi wartościami odstającymi, możesz zgłosić oba modele. To, co powiedziałbyś, jest zgodne z:
Oto moje wyniki. Można się martwić, że ten obraz pojawia się tylko z powodu kilku niezwykłych, ale bardzo wpływowych obserwacji. Są to wyniki tego samego modelu, ale bez tych obserwacji. Nie ma istotnych różnic.
Możliwe jest również ich usunięcie i użycie drugiego modelu jako głównego wyniku. W końcu pozostanie przy oryginalnym zestawie danych stanowi założenie, które dane należą do modelu tak samo, jak przejście do podzbioru. Ale ludzie prawdopodobnie będą bardzo sceptycznie podchodzić do twoich zgłoszonych wyników, ponieważ psychologicznie zbyt łatwo jest komuś przekonać się, bez żadnego faktycznego skorumpowanego zamiaru, przejść do zestawu poprawek post-hoc (takich jak porzucenie niektórych obserwacji), które dają im wynik, którego najbardziej oczekiwali. Zawsze korzystając z pełnego zestawu danych, zapobiegasz tej możliwości i zapewniasz ludzi (powiedzmy, recenzentów), że to nie dzieje się w twoim projekcie.
Inną kwestią jest to, że ludzie „ gonią za bańką ”. Po upuszczeniu niektórych potencjalnych wartości odstających i ponownym uruchomieniu modelu otrzymujesz wyniki, które pokazują nowe, różne obserwacje jako potencjalne wartości odstające. Ile iteracji musisz przejść? Standardowa odpowiedź brzmi: powinieneś pozostać przy swoim oryginalnym, pełnym zestawie danych i zamiast tego uruchomić solidną regresję . To znowu można rozumieć jako analizę wrażliwości.