Czy czyszczenie danych może pogorszyć wyniki analizy statystycznej?


17

Wzrost liczby zachorowań i zgonów występuje podczas epidemii (nagły wzrost liczby) z powodu krążenia wirusów (jak wirus Zachodniego Nilu w USA w 2002 r.) Lub zmniejszającej się odporności ludzi lub zanieczyszczenia żywności lub wody lub wzrostu liczby komary. Epidemie te będą występować jako wartości odstające, które mogą wystąpić co 1–5 lat. Usuwając te wartości odstające usuwamy dowody epidemii, które stanowią ważną część prognozowania i zrozumienia chorób.

Czy czyszczenie danych jest konieczne w przypadku odstających wartości spowodowanych epidemiami?

Czy poprawi wyniki, czy pogorszy wyniki analizy statystycznej?

Odpowiedzi:


12

To zależy od celu twoich badań. Moim zdaniem może być ich kilka:

  1. Chcesz zrozumieć, jakie są typowe czynniki, które powodują przypadki i zgony, i na które nie mają wpływu okresy epidemiczne oraz czynniki, które powodują epidemie (więc jesteś zainteresowany typowymi nie wymuszającymi poważnych prawdopodobieństw) - w tym przypadku oczywiście musisz usunąć epidemię okresy od danych, ponieważ mają one na celu badanie wartości odstających od tego, co chciałbyś wyciągnąć
  2. Możesz uwzględnić zmiany epidemii w swoich modelach (na przykład mile widziane są wszelkie dobre linki i sugestie modeli od społeczności), ponieważ chcesz poznać prawdopodobieństwo wystąpienia okresu epidemii (a także jak długo będzie trwać), w celu przetestowania stabilności i prognozowania - w tym przypadku nie wyklucza się okresów epidemii, ale zamiast tego należy szukać bardziej skomplikowanych modeli zamiast lub czegoś podobnego młot-narzędzie ekonometryczneOL.S.
  3. Twoim głównym celem jest wykrywanie okresów epidemii i monitorowanie ich w czasie rzeczywistym - jest to specjalna dziedzina w ekonometrii, z którą współpracuje wielu moich kolegów na Uniwersytecie Wileńskim (zdecydowanie chciałbyś mieć wiele obserwacji epidemii, aby poradzić sobie z nimi )

Więc jeśli twoim głównym celem jest coś takiego jak 2, wyczyszczenie danych spowoduje błędne wnioski dotyczące przyszłych prognoz, tj. Niedokładne wyniki prognozowania. Prawdą jest również, że drugi przypadek niekoniecznie zapewnia lepsze prognozy, ale przynajmniej można wyciągnąć wnioski na temat prawdopodobieństwa okresów epidemii i ich długości. Jest to niezwykle ważne dla matematyków aktuarialnych, więc może to ty jesteś tym jedynym?


Świetna i prosta odpowiedź. Posiadasz znaczną wiedzę w młodym wieku.
DrWho,

15

Osobiście nie nazwałbym tego „czyszczeniem danych”. Myślę o czyszczeniu danych bardziej w sensie edycji danych - usuwaniu niespójności w zbiorze danych (np. Rekord podaje wiek 1000 lub osoba w wieku 4 lat jest samotnym rodzicem itp.).

Obecność rzeczywistego efektu w twoich danych nie powoduje, że jest „bałagan” (przeciwnie, obecność prawdziwych efektów uczyni go bogatym) - chociaż może sprawić, że twoje matematyczne zadanie będzie bardziej zaangażowane. Sugerowałbym, aby „oczyścić” dane w ten sposób, jeśli jest to jedyny możliwy sposób uzyskania prognozy. Jeśli istnieje wykonalny sposób, który nie wyrzuca informacji, skorzystaj z niego.

Wygląda na to, że możesz skorzystać z jakiejś analizy cyklicznej, biorąc pod uwagę, że mówisz, że efekt ten pojawia się okresowo (coś w rodzaju „cyklu koniunkturalnego”).

Z mojego punktu widzenia, jeśli patrzysz na coś prognozującego, usunięcie prawdziwego efektu z tego źródła może tylko pogorszyć twoje przewidywania. Jest tak, ponieważ skutecznie „wyrzuciłeś” informacje, które chcesz przewidzieć!

Inną kwestią jest to, że ustalenie, ile zgonów było wynikiem epidemii, a ile zwykłych wahań, może być trudne.

W terminologii statystycznej epidemia wydaje się taka, z twojego punktu widzenia jest to „uciążliwość” dla tego, co naprawdę chcesz przeanalizować. Więc nie jesteś tym szczególnie zainteresowany, ale musisz w jakiś sposób uwzględnić to w swojej analizie. Jednym z „szybkich i nieprzyzwoitych” sposobów na dokonanie tego w ustawieniach regresji jest włączenie wskaźnika dla lat / okresów epidemii jako zmiennej regresora. To da ci średnią ocenę skutków epidemii (i domyślnie zakłada, że ​​wpływ jest taki sam dla każdej epidemii). Jednak to podejście działa tylko w celu opisania efektu, ponieważ podczas prognozowania zmienna regresji jest nieznana (nie wiadomo, które okresy w przyszłości będą epidemiczne).

Innym sposobem rozliczenia się z epidemii jest zastosowanie modelu mieszanego z dwoma składnikami: jednym modelem dla części epidemicznej i jednym modelem dla „zwykłej” części. Model przechodzi następnie w dwóch etapach: 1) sklasyfikuj okres jako epidemiczny lub normalny, a następnie 2) zastosuj model, do którego został sklasyfikowany.


(+1) fajne sugestie, choć prawdopodobnie możliwe są inne niezbyt brudne sztuczki.
Dmitrij Celov

+1; Dla potomnych chcę skomentować: stwierdzasz, że „usunięcie prawdziwego efektu ... może tylko pogorszyć twoje przewidywania”. W kontekście masz rację, jednak w ogólnym przypadku niekoniecznie jest to prawda. (Mam na myśli „kompromis wariancji odchylenia”, który jest dużą sprawą w modelowaniu predykcyjnym.) Ponownie, myślę, że jesteś tutaj i wiem, że wiesz o kompromisie wariancji odchylenia; Chciałbym wspomnieć o tym wszystkim, którzy napotkają tę odpowiedź w przyszłości i mogą źle zinterpretować to stwierdzenie.
gung - Przywróć Monikę

5

Aby dać ogólną odpowiedź na twoje pytanie, pozwól, że sparafrazuję jednego z moich starych dyrektorów generalnych: możliwości badań znajdują się w wartościach odstających od modelu, który pasujesz.

Sytuacja jest podobna do eksperymentu przeprowadzonego przez mojego Roberta Millikana w celu ustalenia ładunku elektronu. Dziesiątki lat po zdobyciu nagrody Nobla za eksperyment, jego notatki zostały przeanalizowane i okazało się, że wyrzucił dużą liczbę punktów danych, ponieważ nie zgadzali się z wynikami, których szukał. Czy to zła nauka?

Jeśli znajdziesz kilka wartości odstających, być może wynika to z „abberacji statystycznych”. Jeśli jednak znajdziesz więcej niż kilka wartości odstających, musisz dokładniej zbadać swoje dane. Jeśli nie możesz przypisać przyczyny abberacji, nie rozumiesz tego procesu, a model statystyczny nie rozwiąże twojego problemu. Celem modelu jest podsumowanie procesu, model nie magicznie podsumuje procesu, którego eksperymentator nie rozumie.


To ludzka tendencja. Robert Millikan nie był wyjątkiem. Bardzo się cieszę, że odkryto tak wiele nowych rzeczy i podkreślono filozofię modelu statystycznego.
DrWho

5

Rolą „czyszczenia danych” jest identyfikacja, kiedy „nasze prawa (model) nie działają”. Dostosowanie do wartości odstających lub nieprawidłowych punktów danych pozwala nam uzyskać „solidne oszacowania” parametrów w bieżącym modelu, który zajmujemy. Te „wartości odstające”, jeśli nie są leczone, pozwalają na niepożądane zniekształcenie parametrów modelu, ponieważ oszacowanie jest „motywowane do wyjaśnienia tych punktów danych”, które „nie zachowują się zgodnie z naszym hipotetycznym modelem”. Innymi słowy, istnieje wiele zwrotów pod względem wyjaśnionej sumy kwadratów poprzez skupienie się na „złych”. Empirycznie zidentyfikowane punkty wymagające oczyszczenia należy dokładnie zbadać, aby potencjalnie opracować / zasugerować przyczyny, których nie ma w obecnym modelu.

Jak ocenić efekt interwencji w jednym państwie w porównaniu z innym, stosując roczny wskaźnik śmiertelności przypadków?

Nauka to poszukiwanie powtarzających się wzorców.

Aby wykryć anomalie, należy zidentyfikować wartości, które nie są zgodne z powtarzającymi się wzorami. Skąd inaczej miałbyś wiedzieć, że punkt naruszył ten model? W rzeczywistości proces zwiększania, rozumienia, znajdowania i sprawdzania wartości odstających musi być iteracyjny. To nie jest nowa myśl.

Sir Frances Bacon, pisząc w Novum Organum około 400 lat temu, powiedział: „Błędy natury, sportu i potworów poprawiają rozumienie w odniesieniu do zwykłych rzeczy i ujawniają ogólne formy. Każdy bowiem, kto zna drogi Natury, łatwiej dostrzeże jej odchylenia; a z drugiej strony, ktokolwiek zna rozbieżności, dokładniej opisuje swoje sposoby. ”

Zmieniamy nasze zasady, obserwując, kiedy zawodzą obecne zasady.

Jeśli rzeczywiście zidentyfikowane wartości odstające są impulsami i mają podobny efekt (rozmiar), sugerujemy następujące (cytowane z innego plakatu)

„Jednym z„ szybkich i brudnych ”sposobów, aby to zrobić w ustawieniach regresji, jest włączenie wskaźnika dla lat / okresów epidemii jako zmiennej regresora. To da ci średnie oszacowanie skutków epidemii (i domyślnie zakłada się, że wpływ jest to samo dla każdej epidemii). Jednak to podejście działa tylko w celu opisania efektu, ponieważ w prognozowaniu zmienna regresji jest nieznana (nie wiesz, które okresy w przyszłości będą epidemiami). ”

Dzieje się tak, jeśli kurs wymaga, aby poszczególne anomalie (lata tętna) miały podobne skutki. Jeśli się różnią, opisana powyżej zmienna portmanteau byłaby niepoprawna.


@IrishStat: Świetne wyjaśnienie i niezapomniany cytat. Utrzymałeś staż pracy i wiedzę specjalistyczną. Czy możesz uprzejmie rozwinąć swoje stwierdzenie „wiedza czekająca na odkrycie” w odniesieniu do mojego wcześniejszego pytania stats.stackexchange.com/questions/8358/…
DrWho

1
@DrWHO: Identyfikacja ZMIANY POZIOMU ​​w 2014 r., Która zaradziła bardzo źle wyglądającej działce rezydualnej, jest przykładem „wiedzy czekającej na odkrycie”, ponieważ ujawniła pozorne opóźnienie między datą zmiany polityki a datą pełnego wdrożenia / realizacji. stwierdzenie, że stała zmiana (krokowa) została w pełni zrealizowana w 2004 r. (rok 11 z 17), odzwierciedla faktyczną datę, w której data de jure była kilka lat wcześniej.
IrishStat

@IrishStat: Dziękuję za wyjaśnienie. Bardzo trudno jest przekonać decydentów, lekarzy i opinię publiczną, że dane leczenie może mieć drastyczne zmiany w wyniku choroby. To zajmuje dekady. Zmiana poziomu zaobserwowana w 2004 r. Odzwierciedla opóźnienie w zaakceptowaniu czegoś nowego. Czy lepiej jest zostawić przesunięcie poziomu, czy potraktować to jako wartość odstającą dla obliczeń wskaźników śmiertelności w przypadku 1 stanu, mając do czynienia z pytaniem stats.stackexchange.com/questions/8358/…
DrWho

1
mój komentarz powyżej powinien być LEVEL SHIFT w 2004 roku. Przepraszam za zamieszanie.
IrishStat

1
@DrWHO: W odpowiedzi na twoje pytanie „Czy lepiej jest pozostawić zmianę poziomu, czy potraktować ją jako wartość odstającą dla obliczeń wskaźników śmiertelności przypadków w stanie 1 podczas zajmowania się pytaniem”. Jeśli tego nie traktujesz, możesz po prostu powiedzieć, że STATE1 miał zmianę Przesunięcia Poziomu w 2004 roku, podczas gdy STATE2 tak nie było, ale są różne, ale nie można stawiać prawdopodobieństwa na tym stwierdzeniu. Po potraktowaniu STATE1 dla przesunięcia poziomu znormalizowano dane dotyczące zmiany statusu w 2004 r. Znormalizowane dane (dane oczyszczone) można następnie porównać ze znormalizowanymi danymi STATE2 bez utraty ogólności.
IrishStat

5

Jedną z najczęściej stosowanych metod wykrywania epidemii w danych retrospektywnych jest poszukiwanie wartości odstających - na przykład wielu badaczy grypy koncentruje się przede wszystkim na pozostałościach dopasowanych modeli, a nie na samych modelach, aby zobaczyć miejsca, w których „dzień przewidywania modelu na dzień zawodzą - jednym ze sposobów niepowodzenia modelu jest pojawienie się epidemii.

Konieczne jest jednak rozróżnienie między wyszukiwaniem odstających wartości w wynikach - prawdopodobnie nie jest to najlepszy pomysł na świecie - i tym, co większość ludzi nazywa „czyszczeniem danych”. Tutaj szukasz wartości odstających nie dlatego, że stanowią one problem statystyczny, ale ponieważ powodują problemy z jakością danych.

Na przykład w zestawie danych, który posiadam, jest zmienna dla początku choroby. W przypadku jednego przedmiotu data ta przypada na listopad 1929 r. Czy myślę, że to prawda? Nie. Wskazuje to na problem z jakością danych, który należy naprawić - w tym przypadku należy poprawić datę na podstawie innych informacji na ten temat. Ten rodzaj czyszczenia danych aktywnie poprawi jakość twoich wyników statystycznych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.