Pytanie mówi wszystko. Przeczytałem oba, że nie można uogólniać KS do wymiaru równego lub większego niż dwa , i że słynne implementacje takie jak w przepisach numerycznych są po prostu błędne. Czy możesz wyjaśnić, dlaczego tak jest?
Pytanie mówi wszystko. Przeczytałem oba, że nie można uogólniać KS do wymiaru równego lub większego niż dwa , i że słynne implementacje takie jak w przepisach numerycznych są po prostu błędne. Czy możesz wyjaśnić, dlaczego tak jest?
Odpowiedzi:
Uważam, że uzasadnione jest cytowanie odpowiedniej części tego akapitu:
3. Testu KS nie można zastosować w dwóch lub więcej wymiarach. Astronomowie często mają zestawy danych z punktami rozmieszczonymi w płaszczyźnie lub w większych wymiarach, a nie wzdłuż linii. Kilka artykułów w literaturze astronomicznej ma na celu przedstawienie dwuwymiarowego testu KS, a jeden został powtórzony w słynnym tomie Przepisy numeryczne. Jednak żaden test oparty na EDF (w tym testy KS, AD i testy pokrewne) nie może być zastosowany w dwóch lub więcej wymiarach, ponieważ nie ma unikalnego sposobu uporządkowania punktów, aby można było obliczyć odległości między dobrze zdefiniowanymi EDF. Można zbudować statystyki w oparciu o jakąś procedurę porządkowania, a następnie obliczyć supremum odległości między dwoma zestawami danych (lub jednym zestawem danych i krzywą). Ale wartości krytyczne wynikowej statystyki nie są wolne od dystrybucji.
Jak stwierdzono, wydaje się to zbyt silne.
1) Funkcja rozkładu dwuwymiarowego, czyli to mapa od do . Oznacza to, że funkcja przyjmuje jednoznaczne wartości rzeczywiste od 0 do 1. Te wartości - będące prawdopodobieństwami - są już z pewnością „uporządkowane” - i właśnie to (wartość funkcji) musimy porównać z testami opartymi na ECDF . Podobnie ecdf, jest doskonale dobrze zdefiniowany w przypadku zmiennej dwuwymiarowej.
Nie sądzę, że koniecznie trzeba próbować przekształcić ją w jakąś funkcję zmiennej łączonej jednowymiarowej, jak sugeruje tekst. Po prostu obliczasz i przy każdej wymaganej kombinacji i obliczasz różnicę.
2) Jednak w kwestii tego, czy nie zawiera dystrybucji, mają one rację:
a) wyraźnie taka statystyka testowa nie zmieniłaby się przez zmiany transformacji marginesów, to znaczy, gdyby skonstruowana jako test dwuwymiarowych niezależnych mundurów, , to działa równo a także test niezależnego gdzie . W tym sensie nie zawiera dystrybucji (możemy powiedzieć „bez marży”).
b) jednak istnieje podstawowa kwestia bardziej ogólnie w szerszym znaczeniu, że naiwna wersja statystyki KS (jak właśnie opisałem) nie jest ogólnie wolniejsza od dystrybucji; nie możemy po prostu przekształcić arbitralnie .
We wcześniejszej wersji mojej odpowiedzi powiedziałem:
Nie ma trudności, nie ma problemu
To jest źle. Rzeczywiście istnieją problemy, jeśli nastąpi zmiana nie tylko marginesów z niezależnych mundurów dwuwymiarowych, jak właśnie wspomniano. Trudności te zostały jednak przeanalizowane na wiele sposobów w wielu dokumentach, które dają dwuwymiarowe / wielowymiarowe wersje statystyk Kołmogorowa-Smirnowa, które nie cierpią z powodu tego problemu.
Mogę wrócić i dodać niektóre z tych odniesień oraz dyskusję na temat ich działania, gdy tylko pozwoli na to czas.