Bootstrapping - czy najpierw muszę usunąć wartości odstające?

Przeprowadziliśmy test podziału nowej funkcji produktu i chcemy sprawdzić, czy wzrost przychodów jest znaczący. Nasze obserwacje zdecydowanie nie są normalnie rozpowszechniane (większość naszych użytkowników nie wydaje, a wśród tych, którzy to robią, jest mocno wypaczona w kierunku wielu małych wydawców i kilku bardzo dużych wydawców).

Zdecydowaliśmy się na użycie ładowania początkowego w celu porównania środków, aby obejść problem normalnej dystrybucji danych (pytanie poboczne: czy jest to uzasadnione użycie ładowania początkowego?)

Moje pytanie brzmi: czy muszę wyciąć wartości odstające z zestawu danych (np. Kilka bardzo dużych wydatków) przed uruchomieniem ładowania, czy to nie ma znaczenia?

bootstrap outliers

— użytkownik31228
źródło

Dobre pytanie: prawdopodobnie mogę argumentować za i przeciw usuwaniu wartości odstających. Dlaczego nie skorzystać z median, jeśli martwisz się wartościami odstającymi, a to, czego szukasz, to „centralna tendencja”? Biorąc pod uwagę, że zmienne związane z pieniędzmi często mają bardzo wypaczony rozkład (np. Pareto), co może nie być nieuzasadnione.

— usεr11852 mówi: Przywróć Monic

@ user11852 Medianie niewiele mówią o średniej, która jest istotna dla przychodów. Byłoby interesujące zobaczyć twój argument za usunięciem „wartości odstających”, szczególnie gdy są one prawdopodobnie głównymi czynnikami przyczyniającymi się do całkowitego przychodu.

— whuber

Niestety mediana zawsze wynosiłaby zero, ponieważ <10% użytkowników wydaje w ogóle

— user31228,

@ user11852 Ogólny argument, że wartości odstające są uzasadnione, jest pomocny. Ale jeśli chodzi o możliwość wzmocnienia, wydaje mi się, że jest odwrotnie: bootstrapping ma szansę działać tylko wtedy, gdy zostanie użyta pełna próbka. W przeciwnym razie przedstawia bajkę, która mówi nam, jak by się potoczyły, gdyby nie istniały wartości odstające - ale oczywiście tak jest. Większy problem polega na tym, że ładowanie początkowe ma niewielkie teoretyczne uzasadnienie w przypadku małych próbek: teoria jest asymptotyczna .

— whuber

To ważne pytanie (+1). Czy możesz dodać małą próbkę zestawu danych lub symulowaną próbkę podobną do pytania? Myślę, że podanie ilustracji będzie w tym przypadku bardziej owocne.

— user603,

Odpowiedzi:

Przed zajęciem się tym należy zauważyć, że błąd statystyczny polegający na „usuwaniu wartości odstających” został nieprawidłowo ogłoszony w dużej części stosowanej pedagogiki statystycznej. Tradycyjnie wartości odstające definiuje się jako obserwacje o dużej dźwigni i dużym wpływie. Można i należy zidentyfikować takie obserwacje w analizie danych, ale same te warunki nie uzasadniają usunięcia tych obserwacji. „Prawdziwa wartość odstająca” to obserwacja o dużej dźwigni / dużym wpływie, która jest niezgodna z replikacją projektu eksperymentalnego. Uznanie obserwacji za taką wymaga specjalistycznej wiedzy na temat tej populacji i nauki stojącej za „mechanizmem generowania danych”. Najważniejszym aspektem jest to, że powinieneś być w stanie zidentyfikować potencjalne wartości odstające apriori .

Jeśli chodzi o aspekt ładowania początkowego rzeczy, pasek startowy ma symulować niezależne, powtarzane losowania z populacji próbkowania. Jeśli wcześniej określisz kryteria wykluczenia w swoim planie analizy, nadal powinieneś pozostawić wykluczone wartości w referencyjnym rozkładzie próbkowania bootstrap . Wynika to z utraty mocy z powodu zastosowania wykluczeń po próbkowaniu danych. Jeśli jednak nie ma wcześniej określonych kryteriów wykluczenia, a wartości odstające są usuwane za pomocą orzeczenia post hoc , ponieważ oczywiście jestem przeciwny, usunięcie tych wartości spowoduje propagowanie tych samych błędów wnioskowania, które są spowodowane przez usunięcie wartości odstających.

Rozważ badanie bogactwa i szczęścia w niestratyfikowanej prostej losowej próbie 100 osób. Gdybyśmy przyjęli stwierdzenie, że „1% populacji ma dosłownie 90% światowego bogactwa”, wówczas zaobserwowalibyśmy średnio jedną bardzo wysoce wpływową wartość. Załóżmy ponadto, że poza zapewnieniem podstawowej jakości życia, nie było nadmiernego szczęścia przypisywanego większemu dochodowi (niekonsekwentny trend liniowy). Więc ta osoba ma również dużą dźwignię.

Współczynnik regresji najmniejszych kwadratów dopasowany do nieskażonych danych szacuje uśredniony w populacji trend pierwszego rzędu w tych danych. Jest silnie osłabiony przez naszą 1 osobę w próbie, której szczęście jest zgodne z bliskimi mediany poziomów dochodu. Jeśli usuniemy tę osobę, nachylenie regresji metodą najmniejszych kwadratów będzie znacznie większe, ale wariancja regresora zostanie zmniejszona, stąd wnioskowanie o powiązaniu jest w przybliżeniu takie samo. Trudność polega na tym, że nie określiłem wcześniej warunków, w których osoby byłyby wykluczone. Gdyby inny badacz powtórzył ten plan badania, pobrałby próbkę przeciętnie jednej osoby o wysokim dochodzie, osoby umiarkowanie szczęśliwej i uzyskałby wyniki niezgodne z moimi „przyciętymi” wynikami.

Gdybyśmy byli apriori zainteresowany umiarkowanym stowarzyszenia szczęścia dochód, wówczas powinien Autorzy przyjęli, że będzie, na przykład „porównać osoby zarabiają mniej niż $ 100,000 roczny dochód gospodarstwa domowego”. Usunięcie wartości odstającej powoduje więc oszacowanie związku, którego nie możemy opisać, dlatego wartości p są bez znaczenia.

Z drugiej strony źle skalibrowany sprzęt medyczny i żałosne ankiety, które można zgłosić, mogą zostać usunięte. Im dokładniej kryteria wykluczenia można opisać przed faktyczną analizą, tym bardziej wiarygodne i spójne będą wyniki, jakie przyniesie taka analiza.

— AdamO
źródło

Nie jestem pewien, czy rozumiem, dlaczego „ jeśli wstępnie określisz kryteria wykluczenia w swoim planie analizy, nadal powinieneś pozostawić wykluczone wartości w referencyjnym rozkładzie próbkowania bootstrap. ” Wspominasz, że to jest „, ponieważ uwzględnisz utratę mocy z powodu zastosowanie wykluczeń po próbkowaniu danych. „Nie rozumiem, dlaczego zakłada się, że zastosowanie kryteriów wykluczenia po próbkowaniu prowadzi do utraty mocy, ani też w jaki sposób / dlaczego pozostawienie wykluczonych przypadków w próbce bootstrap„ uwzględnia ”(?) to, ani też dlaczego jest to coś, co wyraźnie należy „wyjaśnić”. Może jestem tu gęsty.

— Jake Westfall

p

$p$

Hmm, myślałem, że jeśli z góry określisz kryteria wykluczenia - abyśmy wyraźnie nie byli zainteresowani niektórymi typami przypadków i przypuszczalnie w przyszłych powtórzeniach badań zastosowane zostaną te same kryteria wykluczenia - wówczas sensowne byłoby odejście te przypadki z próbki bootstrap, ponieważ stanowią one część populacji, o której nie chcemy wnioskować. I widzę, jak przyszłe powtórzenia może skończyć wyłączeniem inną proporcję przypadków, ale nie mogę dość dokonać połączenia Dlaczego to ma znaczenie dla przypadków, które wyraźnie są zainteresowanych ..

— Jake Westfall

p

$p$

H_{0}

$\mathcal{H}_0$

Uważanie tego za problem odstający wydaje mi się błędne. Jeśli „<10% użytkowników wydaje”, musisz wymodelować ten aspekt. Regresja Tobita lub Heckmana byłaby dwiema możliwościami.

— JKP
źródło

Obecnie jest to raczej komentarz niż odpowiedź. Czy mógłbyś rozszerzyć to trochę, aby uzyskać więcej odpowiedzi?

— gung - Przywróć Monikę