Jak interpretować wartość p testu Kołmogorowa-Smirnowa (python)?


30

Mam dwie próbki, które chcę przetestować (przy użyciu Pythona), jeśli pochodzą one z tej samej dystrybucji. W tym celu używam funkcji statystycznej ks_2samp z scipy.stats. Zwraca 2 wartości i mam trudności z ich interpretacją. Prosimy o pomoc!

Odpowiedzi:


23

Jak zauważył Stijn, test ks zwraca statystykę D i wartość p odpowiadającą statystyce D. Statystyka D jest absolutną maksymalną odległością (supremum) między CDF dwóch próbek. Im bliżej tej liczby jest 0, tym bardziej prawdopodobne jest, że dwie próbki zostały pobrane z tego samego rozkładu. Sprawdź stronę Wikipedii, aby sprawdzić test ks. Zapewnia dobre wyjaśnienie: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Wartość p zwrócona przez test ks ma taką samą interpretację jak inne wartości p. Odrzucasz hipotezę zerową, że dwie próbki zostały pobrane z tego samego rozkładu, jeśli wartość p jest mniejsza niż poziom istotności. Możesz znaleźć tabele online do konwersji statystyki D na wartość p, jeśli jesteś zainteresowany procedurą.


Dziękuję za Twoją odpowiedź. Tak naprawdę znam znaczenie 2 wartości D i wartości P, ale nie widzę związku między nimi. Jak mogę zdefiniować poziom istotności? Czy możesz podać mi link do konwersji statystyki D na wartość p?
meri

Oczywiście, tabela konwersji D stat do wartości p: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading

@CrossValidatedTrading: Twój link do tabeli D-stat-to-p-value ma teraz 404.
james.garriss

@CrossValidatedTrading Czy powinna istnieć zależność między wartościami p i wartościami D z dwustronnego testu KS? W niektórych przypadkach widziałem proporcjonalny związek, w którym statystyka D rośnie wraz z wartością p. Wydaje się, że byłoby odwrotnie: dwie krzywe z większą różnicą (większa statystyka D) byłyby znacznie bardziej różne (niska wartość p) ...
Thomas Matthew

jeśli wartość p wynosi> 0,05, to dwie próbki powinny być identyczne i zrównoważone.
user798719,

5

Podczas wyszukiwania w Google ks_2samp pierwszym hitem jest ta strona internetowa. Na nim możesz zobaczyć specyfikację funkcji:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

Parametry aib są moją sekwencją danych, czy powinienem obliczyć CDF, aby użyć ks_2samp?
meri

@meri: na stronie, do której prowadzę link, jest przykład.
Stijn
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.