Rolą „czyszczenia danych” jest identyfikacja, kiedy „nasze prawa (model) nie działają”. Dostosowanie do wartości odstających lub nieprawidłowych punktów danych pozwala nam uzyskać „solidne oszacowania” parametrów w bieżącym modelu, który zajmujemy. Te „wartości odstające”, jeśli nie są leczone, pozwalają na niepożądane zniekształcenie parametrów modelu, ponieważ oszacowanie jest „motywowane do wyjaśnienia tych punktów danych”, które „nie zachowują się zgodnie z naszym hipotetycznym modelem”. Innymi słowy, istnieje wiele zwrotów pod względem wyjaśnionej sumy kwadratów poprzez skupienie się na „złych”. Empirycznie zidentyfikowane punkty wymagające oczyszczenia należy dokładnie zbadać, aby potencjalnie opracować / zasugerować przyczyny, których nie ma w obecnym modelu.
Jak ocenić efekt interwencji w jednym państwie w porównaniu z innym, stosując roczny wskaźnik śmiertelności przypadków?
Nauka to poszukiwanie powtarzających się wzorców.
Aby wykryć anomalie, należy zidentyfikować wartości, które nie są zgodne z powtarzającymi się wzorami. Skąd inaczej miałbyś wiedzieć, że punkt naruszył ten model? W rzeczywistości proces zwiększania, rozumienia, znajdowania i sprawdzania wartości odstających musi być iteracyjny. To nie jest nowa myśl.
Sir Frances Bacon, pisząc w Novum Organum około 400 lat temu, powiedział: „Błędy natury, sportu i potworów poprawiają rozumienie w odniesieniu do zwykłych rzeczy i ujawniają ogólne formy. Każdy bowiem, kto zna drogi Natury, łatwiej dostrzeże jej odchylenia; a z drugiej strony, ktokolwiek zna rozbieżności, dokładniej opisuje swoje sposoby. ”
Zmieniamy nasze zasady, obserwując, kiedy zawodzą obecne zasady.
Jeśli rzeczywiście zidentyfikowane wartości odstające są impulsami i mają podobny efekt (rozmiar), sugerujemy następujące (cytowane z innego plakatu)
„Jednym z„ szybkich i brudnych ”sposobów, aby to zrobić w ustawieniach regresji, jest włączenie wskaźnika dla lat / okresów epidemii jako zmiennej regresora. To da ci średnie oszacowanie skutków epidemii (i domyślnie zakłada się, że wpływ jest to samo dla każdej epidemii). Jednak to podejście działa tylko w celu opisania efektu, ponieważ w prognozowaniu zmienna regresji jest nieznana (nie wiesz, które okresy w przyszłości będą epidemiami). ”
Dzieje się tak, jeśli kurs wymaga, aby poszczególne anomalie (lata tętna) miały podobne skutki. Jeśli się różnią, opisana powyżej zmienna portmanteau byłaby niepoprawna.