Pytania dla początkujących:
Chcę przetestować, czy dwa dyskretne zestawy danych pochodzą z tej samej dystrybucji. Zaproponowano mi test Kołmogorowa-Smirnowa.
Conover ( Practical Nonparametric Statistics , 3d) wydaje się mówić, że do tego celu można zastosować test Kołmogorowa-Smirnowa, ale jego zachowanie jest „konserwatywne” z dyskretnymi rozkładami i nie jestem pewien, co to oznacza tutaj.
Komentarz Davida do innego pytania brzmi: „... możesz nadal wykonać test poziomu α na podstawie statystyki KS, ale będziesz musiał znaleźć inną metodę uzyskania wartości krytycznej, np. Przez symulację”.
Wersja ks.test () w pakiecie dgof R ( artykuł , cran ) dodaje pewne funkcje, których nie ma w domyślnej wersji ks.test () w pakiecie statystyk. Dgof :: ks.test zawiera między innymi ten parametr:
simulate.p.value: logiczne wskazanie, czy obliczać wartości p za pomocą symulacji Monte Carlo, tylko w przypadku dyskretnych testów dopasowania.
Czy celem simulate.p.value = T jest osiągnięcie tego, co sugeruje DavidR?
Nawet jeśli tak jest, nie jestem pewien, czy naprawdę mogę użyć dgof :: ks.test do testu dwóch próbek. Wygląda na to, że zapewnia jedynie test dwóch próbek dla ciągłego rozkładu:
Jeśli y jest liczbowe, przeprowadzany jest test dwóch prób hipotezy zerowej, że xiy zostały narysowane z tego samego ciągłego rozkładu.
Alternatywnie, y może być ciągiem znaków nazywającym ciągłą (skumulowaną) funkcję dystrybucji (lub taką funkcję), lub funkcję ecdf (lub obiekt klasy stepfun) dający rozkład dyskretny. W takich przypadkach przeprowadzany jest test z jedną próbką od wartości zerowej, że funkcja rozkładu, która wygenerowała x, jest rozkładem y ....
(Szczegóły tła: Ściśle mówiąc, moje podstawowe rozkłady są ciągłe, ale dane zwykle leżą bardzo blisko kilku punktów. Każdy punkt jest wynikiem symulacji i jest średnią z 10 lub 20 liczb rzeczywistych między -1 a 1. Pod koniec symulacji liczby te prawie zawsze są bardzo bliskie 0,9 lub -9. Zatem środki skupiają się wokół kilku wartości, a ja traktuję je jako dyskretne. Symulacja jest złożona i nie mam powód, by sądzić, że dane mają dobrze znaną dystrybucję).
Rada?