Powiedzmy, że mam dwie lub więcej próbnych populacji n-wymiarowych ciągłych wektorów. Czy istnieje nieparametryczny sposób sprawdzenia, czy próbki te pochodzą z tego samego rozkładu? Jeśli tak, to czy jest do tego funkcja w R lub Pythonie?
Powiedzmy, że mam dwie lub więcej próbnych populacji n-wymiarowych ciągłych wektorów. Czy istnieje nieparametryczny sposób sprawdzenia, czy próbki te pochodzą z tego samego rozkładu? Jeśli tak, to czy jest do tego funkcja w R lub Pythonie?
Odpowiedzi:
Właśnie przeprowadziłem wiele badań na dwóch próbach na wielu odmianach, kiedy zdałem sobie sprawę, że test Kołmogorowa-Smirnowa nie był wielowymiarowy. Spojrzałem więc na test Chi, kryterium T ^ 2 Hotellinga, kryterium Andersona-Darlinga, Cramera-von Misesa, Shapiro-Wilka itp. Musisz być ostrożny, ponieważ niektóre z tych testów polegają na porównaniu wektorów jako takich samych długość. Inne służą jedynie do odrzucenia założenia normalności, a nie do porównania dwóch rozkładów próbek.
Wydaje się, że wiodącym rozwiązaniem jest porównanie funkcji rozkładu skumulowanego dwóch próbek ze wszystkimi możliwymi porządkami, które, jak można podejrzewać, są bardzo intensywne obliczeniowo, rzędu minut dla pojedynczego przebiegu próbki zawierającej kilka tysięcy rekordów:
https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf
Jak stwierdza dokumentacja Xiao, test Fasano i Franceschini jest odmianą testu Peacock:
http://adsabs.harvard.edu/abs/1987MNRAS.225..155F
Test Fasano i Franceschini miał być specjalnie mniej wymagający obliczeniowo, ale nie znalazłem implementacji ich pracy w R.
Dla tych z Was, którzy chcą poznać obliczeniowe aspekty testu Peacock kontra Fasano i Franceschini, sprawdź wydajne obliczeniowo algorytmy dla dwuwymiarowego testu Kołmogorowa – Smirnova
Pakiet R np. (Nieparametryczny) ma test równości gęstości danych ciągłych i jakościowych przy użyciu zintegrowanej gęstości kwadratowej. Li, Maasoumi i Racine (2009)
Jak również np. Warunkowy pdf w sekcji 6 .
Tak, istnieją nieparametryczne sposoby testowania, jeśli dwie próbki wielowymiarowe pochodzą z tego samego wspólnego rozkładu. Wspomnę o szczegółach, z wyjątkiem tych wymienionych przez L. Fischmana . Podstawowy problem, który zadajesz, można nazwać „problemem dwóch prób”, a obecnie wiele badań jest prowadzonych w czasopismach takich jak Journal of Machine Learning Research i Annals of Statistics i inne. Mając małą wiedzę na temat tego problemu, mogę udzielić wskazówek w następujący sposób
Jeśli Twoim celem jest porównanie różnych zestawów punktów (zestawów próbek) z zestawem punktów odniesienia, aby zobaczyć, jak bardzo zbliżają się one do zestawu punktów odniesienia, możesz użyć rozbieżności f .
Mogą być też inne sposoby podejścia, ta odpowiedź nie jest w żaden sposób kompleksowym podejściem do twojego pytania;)