Dlaczego nie można uogólnić testu Kołmogorowa-Smirnowa na 2 lub więcej wymiarów?


10

Pytanie mówi wszystko. Przeczytałem oba, że nie można uogólniać KS do wymiaru równego lub większego niż dwa , i że słynne implementacje takie jak w przepisach numerycznych są po prostu błędne. Czy możesz wyjaśnić, dlaczego tak jest?


Dodałem kilka tagów (dwuwymiarowe, empiryczne i cdf) na podstawie cytowanej (w mojej odpowiedzi) sekcji artykułu.
Glen_b

pedrofigueira - Dokonałem istotnych zmian w mojej odpowiedzi (mój oryginał był zły; przepraszam za to). Prawdopodobnie wprowadzę więcej zmian, ponieważ zamierzam wrócić z odniesieniami do kilku testów KS na wielu odmianach.
Glen_b

@Glen_b bardzo dziękuję za poświęcony czas i wysiłek!
pedrofigueira

Odpowiedzi:


13

Uważam, że uzasadnione jest cytowanie odpowiedniej części tego akapitu:

3. Testu KS nie można zastosować w dwóch lub więcej wymiarach. Astronomowie często mają zestawy danych z punktami rozmieszczonymi w płaszczyźnie lub w większych wymiarach, a nie wzdłuż linii. Kilka artykułów w literaturze astronomicznej ma na celu przedstawienie dwuwymiarowego testu KS, a jeden został powtórzony w słynnym tomie Przepisy numeryczne. Jednak żaden test oparty na EDF (w tym testy KS, AD i testy pokrewne) nie może być zastosowany w dwóch lub więcej wymiarach, ponieważ nie ma unikalnego sposobu uporządkowania punktów, aby można było obliczyć odległości między dobrze zdefiniowanymi EDF. Można zbudować statystyki w oparciu o jakąś procedurę porządkowania, a następnie obliczyć supremum odległości między dwoma zestawami danych (lub jednym zestawem danych i krzywą). Ale wartości krytyczne wynikowej statystyki nie są wolne od dystrybucji.

Jak stwierdzono, wydaje się to zbyt silne.

1) Funkcja rozkładu dwuwymiarowego, czyli to mapa od do . Oznacza to, że funkcja przyjmuje jednoznaczne wartości rzeczywiste od 0 do 1. Te wartości - będące prawdopodobieństwami - są już z pewnością „uporządkowane” - i właśnie to (wartość funkcji) musimy porównać z testami opartymi na ECDF . Podobnie ecdf, jest doskonale dobrze zdefiniowany w przypadku zmiennej dwuwymiarowej.F(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

Nie sądzę, że koniecznie trzeba próbować przekształcić ją w jakąś funkcję zmiennej łączonej jednowymiarowej, jak sugeruje tekst. Po prostu obliczasz i przy każdej wymaganej kombinacji i obliczasz różnicę.FF^

2) Jednak w kwestii tego, czy nie zawiera dystrybucji, mają one rację:

a) wyraźnie taka statystyka testowa nie zmieniłaby się przez zmiany transformacji marginesów, to znaczy, gdyby skonstruowana jako test dwuwymiarowych niezależnych mundurów, , to działa równo a także test niezależnego gdzie . W tym sensie nie zawiera dystrybucji (możemy powiedzieć „bez marży”).U=(U1,U2)(X1,X2)Ui=Fi(Xi)

b) jednak istnieje podstawowa kwestia bardziej ogólnie w szerszym znaczeniu, że naiwna wersja statystyki KS (jak właśnie opisałem) nie jest ogólnie wolniejsza od dystrybucji; nie możemy po prostu przekształcić arbitralnie .UX=g(U)

We wcześniejszej wersji mojej odpowiedzi powiedziałem:

Nie ma trudności, nie ma problemu

To jest źle. Rzeczywiście istnieją problemy, jeśli nastąpi zmiana nie tylko marginesów z niezależnych mundurów dwuwymiarowych, jak właśnie wspomniano. Trudności te zostały jednak przeanalizowane na wiele sposobów w wielu dokumentach, które dają dwuwymiarowe / wielowymiarowe wersje statystyk Kołmogorowa-Smirnowa, które nie cierpią z powodu tego problemu.

Mogę wrócić i dodać niektóre z tych odniesień oraz dyskusję na temat ich działania, gdy tylko pozwoli na to czas.


Ta odpowiedź jest wyraźnie poprawna, ale uwaga: można użyć testu KS, nie oznacza to, że należy go użyć. Zwykle są o wiele lepsze testy (mocniejsze).
kjetil b halvorsen

Z pewnością - choć zależy to od interesujących alternatyw.
Glen_b

1
Nie do końca rozumiem tę odpowiedź. Wyobrażam sobie, że wiele zbiorów danych astronomicznych (jak również wiele innych małych zestawów danych) nie ma wewnętrznych układów współrzędnych. Zatem twoje twierdzenie, że punkty zostały już „zamówione” byłoby w takich okolicznościach nieważne. Można by go uratować, gdybyś był w stanie wykazać, że statystyka KS jest niezależna od współrzędnych użytych do identyfikacji lokalizacji . Nie sądzę, że to prawda w dwóch lub więcej wymiarach, ale mogę się mylić.
whuber

1
@ whuber Dokonałem znacznych zmian w świetle twojej bardzo życzliwej odpowiedzi na mój błąd. Prawdopodobnie wprowadzę dalsze zmiany, dodając odniesienia i więcej szczegółów w nadziei na udzielenie odpowiedzi, która będzie bardziej przydatna w dłuższej perspektywie.
Glen_b

(+1) Dziękuję bardzo, Glen, za poszerzenie tej odpowiedzi i uczynienie jej bardziej dopracowaną. Chociaż uważam, że OP odnosi się do wątpliwej jakości (na początku źle interpretuje to, co oznaczają testy hipotez), w końcu przyznaje, że „bootstrap może przyjść na ratunek, a poziomy istotności dla konkretnej statystyki wielowymiarowej i konkretnego badanego zestawu danych mogą być obliczone numerycznie ”. Wydaje się to zgodne, przynajmniej w duchu, z tym, jak kształtuje się twoja odpowiedź.
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.