Statystyczna odległość między monetą jednolitą a stronniczą

Pozwolić $U$ być równomiernym rozkładem $n$ bitów i pozwól $D$ być dystrybucją $n$ bity, w których bity są niezależne, a każdy bit jest $1$ z prawdopodobieństwem $1/2-\epsilon$ . Czy to prawda, że statystyczna odległość między $D$ i $U$ jest $\Omega(\epsilon \sqrt{n})$ , kiedy $n \le 1/\epsilon^2$ ?

pr.probability

— Manu
źródło

Tak. Statystyczna odległość między

U

$U$ i

V

$V$ jest przynajmniej

{P r}_{U} (\sum x_{i} > n / 2) - {P r}_{D} (\sum x_{i} > n / 2)

$\mathrm{Pr}_U(\sum x_i > n/2) - \mathrm{Pr}_D(\sum x_i > n/2)$ , który jest

Ω (ε \sqrt{n})

$\Omega(\varepsilon \sqrt{n})$ ; patrz np. odpowiedź Matusa

— Yury

Dzięki. Być może wyjaśnij, jak to zrobić z tego, co napisał Matus w odpowiedzi, którą mogę zaakceptować?

— Manu,

Prawdopodobnie przydatne: cstheory.stackexchange.com/q/22328/5038 , stats.stackexchange.com/q/17405/2921 .

— DW

Jeśli chodzi o odpowiedź Matusa, możesz zrobić lepiej niż nierówność Sluda; patrz (2.13,2.14) w arxiv.org/abs/1606.08920

— Aryeh

Odpowiedzi:

Oznacz losowe bity przez $x_1,\dots, x_n$ . Z definicji statystyczna odległość między $U$ i $D$ jest przynajmniej $\Pr_U\left(\sum x_i \geq t\right) - \Pr_D\left(\sum x_i \geq t\right)$ dla każdego . Wybieramy . $t$ $t = n/2 + \sqrt{n}$

Zauważ, że dla jakiejś bezwzględnej stałej . Jeśli , to statystyczna odległość wynosi co najmniej i gotowe. Zakładamy więc, że . $\Pr_U\left(\sum x_i \geq t\right) \geq c_1$ $c_1 > 0$ $\Pr_D\left(\sum x_i \geq t\right) \leq c_1/2$ $c_1/2$ $\Pr_D\left(\sum x_i \geq t\right) \geq c_1/2$

Niech dla iid zmiennych losowych Bernoulliego z . Naszym celem jest udowodnienie, że . Według twierdzenia o wartości średniej, dla niektórych . Teraz udowodnimy, że ; oznacza to, że pożądana statystyczna odległość wynosi co najmniej , zgodnie z wymaganiami. $f(s) = \Pr\left(\sum x_i \geq t\right)$ $x_1,\dots, x_n$ $\Pr(x_i = 1) = 1/2-s$ $f(0) - f(\varepsilon) = \Omega(\varepsilon \sqrt{n})$

f (0) - f (ε) = - ε f^{'} (ξ),

$f(0) - f(\varepsilon) = -\varepsilon f'(\xi),$

ξ \in (0, ε)

$\xi \in (0, \varepsilon)$

- f^{'} (ξ) \geq Ω (\sqrt{n})

$-f'(\xi) \geq \Omega(\sqrt{n})$

Ω (\sqrt{n} ε)

$\Omega(\sqrt{n} \varepsilon)$

Zapis, i Uwaga: A zatem,

f (ξ) = \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k},

$f(\xi) = \sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^k \left(\frac12+\xi\right)^{n-k},$

\begin{aligned} f^{'} (ξ) & = \sum_{k \geq t} (\binom{n}{k}) (- k {(\frac{1}{2} - ξ)}^{k - 1} {(\frac{1}{2} + ξ)}^{n - k} + (n - k) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k - 1}) \\ = - \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k} \frac{k / 2 + k ξ - (n - k) / 2 + (n - k) ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} . \end{aligned}

$\begin{align} f'(\xi) &= \sum_{k\geq t} \binom{n}{k} \left(-k \left(\frac12 - \xi\right)^{k-1} \left(\frac12+\xi\right)^{n-k} + (n-k) \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k-1}\right) \\ &= -\sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k}\frac{k/2 + k\xi - (n-k)/2 + (n-k)\xi}{(1/2 - \xi)(1/2 +\xi)}. \end{align}$

\frac{k / 2 + k ξ - (n - k) / 2 + (n - k) ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} = \frac{(2 k - n) / 2 + n ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} \geq 2 (2 t - n) = 4 \sqrt{n} .

$\frac{k/2 + k\xi - (n-k)/2 + (n-k)\xi}{\left(1/2 - \xi\right)\left(1/2 +\xi\right)} = \frac{(2k-n)/2 + n\xi}{(1/2 - \xi)(1/2 +\xi)} \geq 2(2t - n) = 4\sqrt{n}.$

\begin{aligned} - f^{'} (ξ) & \geq 4 \sqrt{n} \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k} \\ = 4 \sqrt{n} f (ξ) \geq 4 \sqrt{n} f (ε) \geq 4 \sqrt{n} \cdot (c_{1} / 2) . \end{aligned}

$\begin{align}-f'(\xi) &\geq 4\sqrt{n} \sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k} \\&= 4\sqrt{n} f(\xi) \geq 4\sqrt{n} f(\varepsilon) \geq 4\sqrt{n}\cdot (c_1/2).\end{align}$ tym miejscu założenie, że . Pokazaliśmy, że .

f (ε) = \underset{D}{Pr} (x_{1} + \dots + x_{n} \geq t) \geq c_{1} / 2

$f(\varepsilon) = \Pr_D(x_1+\dots+x_n \geq t) \geq c_1/2$

- f^{'} (ξ) = Ω (\sqrt{n})

$-f'(\xi) = \Omega(\sqrt{n})$

— Yury
źródło

Nieco bardziej elementarny i nieco niechlujny dowód (a przynajmniej tak mi się wydaje).

Dla wygody napisz , z założeniem . $\varepsilon = \frac{\gamma}{\sqrt{n}}$ $\gamma\in [0,1)$

Wyraźnie dolną granicę wyrażenia : $\operatorname{d}_{\rm TV}{(P,U)}$

\begin{aligned} 2 d_{T V} (P, U) & = \sum_{x \in {0, 1}^{n}} | {(\frac{1}{2} + \frac{γ}{\sqrt{n}})}^{| x |} {(\frac{1}{2} - \frac{γ}{\sqrt{n}})}^{n - | x |} - \frac{1}{2^{n}} | \\ = \frac{1}{2^{n}} \sum_{k = 0}^{n} (\binom{n}{k}) | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \\ \geq \frac{1}{2^{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} (\binom{n}{k}) | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \\ \geq \frac{C}{\sqrt{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \end{aligned}

$\begin{align*} 2\operatorname{d}_{\rm TV}{(P,U)} &= \sum_{x\in\{0,1\}^n} \left\lvert{ \left( \frac{1}{2} + \frac{\gamma }{\sqrt{n}} \right)^{\lvert{x}\rvert}\left( \frac{1}{2} - \frac{\gamma }{\sqrt{n}} \right)^{n-\lvert{x}\rvert} - \frac{1}{2^n} }\right\rvert \\ &= \frac{1}{2^n}\sum_{k=0}^n \binom{n}{k}\left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 }\right\rvert \\ &\geq \frac{1}{2^n}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \binom{n}{k}\left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 }\right\rvert \\ &\geq \frac{C}{\sqrt{n}}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 } \right\rvert \end{align*}$ gdzie jest stałą bezwzględną. Obniżamy każdą granicę osobno: naprawiamy i piszemy , tak aby każdy summand był niżej ograniczony wielkością zbieżną (kiedy ) do

C > 0

$C>0$

k

$k$

ℓ = k - \frac{n}{2} \in [\sqrt{n}, 2 \sqrt{n}]

$\ell = k-\frac{n}{2} \in [\sqrt{n},2\sqrt{n}]$

\begin{aligned} {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} & = {(1 - \frac{4 γ^{2}}{n})}^{n / 2} {(\frac{1 + \frac{2 γ}{\sqrt{n}}}{1 - \frac{2 γ}{\sqrt{n}}})}^{ℓ} \\ \geq {(1 - \frac{4 γ^{2}}{n})}^{n / 2} {(\frac{1 + \frac{2 γ}{\sqrt{n}}}{1 - \frac{2 γ}{\sqrt{n}}})}^{\sqrt{n}} \to_{n \to \infty}^{} e^{4 γ - 2 γ^{2}} \end{aligned}

$\begin{align*} \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} &= \left( 1 - \frac{4\gamma ^2}{n} \right)^{n/2}\left( \frac{1 + \frac{2\gamma }{\sqrt{n}}}{1 - \frac{2\gamma }{\sqrt{n}}}\right)^\ell \\ &\geq \left( 1 - \frac{4\gamma ^2}{n} \right)^{n/2}\left( \frac{1 + \frac{2\gamma }{\sqrt{n}}}{1 - \frac{2\gamma }{\sqrt{n}}}\right)^{\sqrt{n}} \xrightarrow[n\to\infty]{} e^{4\gamma -2\gamma ^2} \end{align*}$

n \to \infty

$n\to \infty$

e^{4 γ - 2 γ^{2}} - 1 > 4 γ - 2 γ^{2} > 2 γ

$e^{4\gamma -2\gamma ^2}-1 > 4\gamma -2\gamma ^2 > 2\gamma$ ; sugerując, że każdy to . Podsumowując, daje to jak twierdzono.

Ω (γ)

$\Omega(\gamma )$

\begin{aligned} 2 d_{T V} (P, U) & \geq \frac{C}{\sqrt{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} Ω (γ) = Ω (γ) = Ω (ε \sqrt{n}) \end{aligned}

$\begin{align*} 2\operatorname{d}_{\rm TV}{(P,U)} &\geq \frac{C}{\sqrt{n}}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \Omega(\gamma ) = \Omega(\gamma) = \Omega(\varepsilon\sqrt{n}) \end{align*}$

— Klemens C.
źródło

(Używanie Hellingera jako proxy ze względu na jego miłe właściwości, dystrybucje produktów wrt są kuszące i byłyby znacznie szybsze, ale na końcu dolna granica spowodowałaby stratę przez czynnik kwadratowy.)

— Clement C.

Miły! Lubię podejście elementarne. Powinniśmy być w stanie sprawić, by nie był również asymptotyczny w .... jednym ze sposobów jest użycie , a następnie użyj ładnej nierówności . Trochę bałagan.

n

$n$

{(\frac{1 + z}{1 - z})}^{\sqrt{n}} \geq {(1 + 2 z)}^{\sqrt{n}}

$\left(\frac{1+z}{1-z}\right)^{\sqrt{n}} \geq \left(1 + 2z\right)^{\sqrt{n}}$

1 + w \geq e^{w - w^{2} / 2}

$1+w \geq e^{w - w^2/2}$

— usul