Leczenie wartości odstających wytwarzanych przez Kurtosis


10

Zastanawiałem się, czy ktoś może mi pomóc z informacjami na temat Kurtozy (tj. Czy istnieje sposób na przekształcenie danych w celu ich zmniejszenia?)

Mam zestaw danych kwestionariusza z dużą liczbą przypadków i zmiennych. W przypadku niektórych moich zmiennych dane pokazują dość wysokie wartości kurtozy (tj. Rozkład leptokurtyczny), co wynika z faktu, że wielu uczestników dało dokładnie taki sam wynik dla zmiennej. Mam szczególnie dużą liczebność próby, więc zgodnie z centralnym twierdzeniem granicznym naruszenia normalności powinny być nadal w porządku.

Problemem jest jednak fakt, że szczególnie wysokie poziomy Kurtosis powodują szereg jednoznacznych wartości odstających w moim zbiorze danych. Jako taki, nawet jeśli przekształcę dane lub usunę / dopasuję wartości odstające, wysoki poziom kurtozy oznacza, że ​​następne najbardziej ekstremalne wyniki automatycznie stają się wartościami odstającymi. Mam zamiar użyć (Analiza funkcji dyskryminacyjnej). Uważa się, że DFA jest odporny na odstępstwa od normalności, pod warunkiem że naruszenie jest spowodowane wypaczeniem, a nie wartościami odstającymi. Ponadto uważa się, że na DFA szczególnie wpływ mają odstające dane (Tabachnick i Fidel).

Jakieś pomysły na obejście tego? (Moja początkowa myśl była sposobem na kontrolowanie Kurtozy, ale czy to nie jest dobra rzecz, jeśli większość mojej próbki daje podobne oceny?)

Odpowiedzi:


8

Oczywistym sposobem na rozwiązanie problemu jest „zdrowy rozsądek”

  1. Wyciągnij wniosek, korzystając z pełnego zestawu danych. tzn. jakie wyniki zadeklarujesz, ignorując obliczenia pośrednie?
  2. Wyciągnij wniosek, używając zestawu danych z usuniętymi wartościami odstającymi. tzn. jakie wyniki zadeklarujesz, ignorując obliczenia pośrednie?
  3. Porównaj krok 2 z krokiem 1
  4. Jeśli nie ma różnicy, zapomnij, że nawet miałeś problem. Wartości odstające nie mają znaczenia dla twojego wniosku . Wartości odstające mogą mieć wpływ na inne wnioski, które mogły zostać wyciągnięte na podstawie tych danych, ale nie ma to znaczenia dla twojej pracy. To problem kogoś innego.
  5. Jeśli jest jakaś różnica, to w zasadzie masz pytanie o „zaufanie”. Czy te „wartości odstające” są rzeczywiste w tym sensie, że rzeczywiście odzwierciedlają coś w twojej analizie? A może „wartości odstające” są złe, ponieważ pochodzą z jakiegoś „zanieczyszczonego źródła”?

W sytuacji 5 masz w zasadzie przypadek „modelu”, którego użyłeś do opisania „populacji”, jest niekompletny - istnieją szczegóły, które nie zostały określone, ale które mają znaczenie dla wniosków. Istnieją dwa sposoby rozwiązania tego problemu, odpowiadające dwóm scenariuszom „zaufania”:

  1. P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

Większość „standardowych” procedur może być przybliżona do tego rodzaju modeli. Najbardziej oczywistym z nich jest rozważenie przypadku 1, w którym wariancję założono jako stałą dla obserwacji. Rozłożenie tego założenia na rozkład daje rozkład mieszanin. Jest to związek między rozkładami „normal” i „t”. Normalna ma ustaloną wariancję, podczas gdy „t” miesza się z różnymi wariancjami, ilość „mieszania” zależy od stopni swobody. Wysoka DF oznacza niskie mieszanie (wartości odstające są mało prawdopodobne), wysoka DF oznacza wysokie mieszanie (wartości odstające są prawdopodobne). W rzeczywistości można traktować przypadek 2 jako szczególny przypadek przypadku 1, w którym „dobre” obserwacje są normalne, a „złymi” obserwacjami są Cauchy (tz 1 DF).


Cóż za doskonała odpowiedź, @probabilityislogic
Peter Flom

Tylko wyjaśnienie: optymalna klasyfikacja wymaga znajomości prawdziwych rozkładów wielowymiarowych. Jeśli potrafisz dobrze oszacować te rozkłady, wynikowa funkcja klasyfikacji jest prawie optymalna. Wartości odstające (wskazane przez kurtozę) są rzeczywiście problematyczne, ponieważ w regionie nie ma mało danych do oszacowania gęstości. W przypadku danych wielowymiarowych klątwa wymiarowa również przyczynia się do tego problemu.
Peter Westfall,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.