Definiowanie kwantyli na podstawie ważonej próbki

Mam ważoną próbkę, dla której chcę obliczyć kwantyle. ¹

Najlepiej, przy czym masy są takie same (zarówno = 1 lub inaczej), wyniki mogą być zgodne z tymi, scipy.stats.scoreatpercentile()i R: quantile(...,type=7).

Jednym prostym podejściem byłoby „pomnożenie” próbki przy użyciu podanych wag. To skutecznie daje lokalnie „płaski” plik pdf w obszarach wagi> 1, co intuicyjnie wydaje się niewłaściwym podejściem, gdy próbka jest w rzeczywistości podpróbkowaniem. W szczególności oznacza to, że próbka z wagami równymi 1 ma inne kwantyle niż ta z wagami równymi 2 lub 3. (Należy jednak zauważyć, że papier wymieniony w [1] wydaje się stosować to podejście).

http://en.wikipedia.org/wiki/Percentile#Weighted_percentile daje alternatywne sformułowanie dla ważonego percentyla. W tym sformułowaniu nie jest jasne, czy sąsiadujące próbki o identycznych wartościach należy najpierw połączyć, a ich wagi zsumować, a w każdym razie wyniki nie wydają się zgodne z domyślnym typem R 7 quantile()w przypadku nieważonego / jednakowo ważonego. Strona wikipedii na temat kwantyli w ogóle nie wspomina o przypadku ważonym.

Czy istnieje ważone uogólnienie funkcji kwantylu „typu 7” R?

[używa Pythona, ale po prostu szuka algorytmu, naprawdę, więc wystarczy dowolny język]

[1] Wagi są liczbami całkowitymi; wagi są tymi buforami, które są łączone w operacjach „zwinięcia” i „wyjścia”, jak opisano w http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf . Zasadniczo próbka ważona jest podpróbkowaniem pełnej próbki nieważonej, przy czym każdy element x (i) w podpróbce reprezentuje elementy wagi (i) w pełnej próbce.

algorithms quantiles weighted-sampling

— Misza
źródło

Temat jest dość stary, ale tutaj jest kod numpy dla ważonych kwantyli stackoverflow.com/a/29677616/498892

— Alleo 16.04.15

To jest jedno z możliwych podejść:

Załóżmy, że masz zamówioną próbkę o odpowiednich wagach . $X_1 \le X_2 \le \cdots \le X_n$ $W_1, W_2, \ldots, W_n$

Zdefiniuj więc i .

S_{k} = (k - 1) W_{k} + (N - 1) \sum_{i = 1}^{k - 1} W_{i}

$S_k = (k-1) W_k+ (N-1) \sum_{i=1}^{k-1} W_i$

S_{1} = 0

$S_1=0$

S_{n} = (N - 1) \sum_{i = 1}^{N} W_{i}

$S_n = (N-1) \sum_{i=1}^{N} W_i$

Aby interpolować kwantyl , znajdź taki, że . Twoja ocena może być wtedy $p$ $k$ $\frac{S_k}{S_n} \le p \le \frac{S_{k+1}}{S_n}$

X_{k} + (X_{k + 1} - X_{k}) \frac{p S_{n} - S_{k}}{S_{k + 1} - S_{k}} .

$X_k + (X_{k+1}-X_k)\frac{pS_n-S_k}{S_{k+1}-S_k}.$

Myślę, że przekonasz się, że jeśli są równe, to odtwarza R-7. Są też inne podejścia, ale podejrzewam, że nie traktują wszystkich uporządkowanych wag jako równie ważne. $W_i$

— Henz
źródło

Może występować problem, jeśli dwie wartości w próbce są równe, ale mają różne wagi - nie zastanawiałem się nad tym.

— Henry,