Spróbuję odpokutować za mój poprzedni błąd, pokazując coś przeciwnego - że próbki są wystarczające (dolna granica jest prawie ciasny)! Zobacz co myślisz ....1/ϵ2Θ~(1ϵ2)1/ϵ2
Kluczowa intuicja rozpoczyna się od dwóch obserwacji. Po pierwsze, aby rozkłady miały odległość , muszą istnieć punkty z dużym prawdopodobieństwem ( ). Na przykład, gdybyśmy mieli punkty prawdopodobieństwa , mielibyśmy . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3 ‖ D 1 - D 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
Po drugie, rozważ jednolite rozkłady o odległości . Gdybyśmy mieli punkty prawdopodobieństwa , wówczas każdy z nich różniłby się i wystarczałyby próbki . Z drugiej strony, gdybyśmy mieli punkty , każdy z nich musiałby różnić się o próbki i ponownie (stała liczba na punkt) wystarczy. Możemy więc mieć nadzieję, że wśród wspomnianych wcześniej punktów o wysokim prawdopodobieństwie zawsze istnieje punkt różniący się „wystarczająco”, aby . ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2L2ϵO ( 1 )O ( 1 )O ( ϵ )1 / ϵ2)O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )O ( 1 / ϵ2))O ( ϵ2))O ( 1 / ϵ2))O ( 1 / ϵ2))
Algorytm. Biorąc pod uwagę i parametr ufności , niech . Narysuj próbki z każdej dystrybucji. Niech będą odpowiednio wyższą, niższą liczbą próbek dla punktu . Jeśli istnieje punkt dla którego i , zadeklaruj różne rozkłady. W przeciwnym razie zadeklaruj je tak samo.M X = M log ( 1 / ϵ 2 ) XϵM.X= M.log( 1 / ϵ2)) ai,biii∈[n]ai≥XXϵ2)zaja, bjajai ∈ [ n ] ai-bi≥√zaja≥ X8zaja- bja≥ aja--√X√4
Granice poprawności i pewności ( ) zależą od następującego lematu, który mówi, że całe odchylenie w odległości pochodzi od punktów, których prawdopodobieństwo różni się o . L 2 Ω ( ϵ 2 )1 - e- Ω ( M)L.2)Ω ( ϵ2))
Roszczenie. Załóżmy, że . Niech. Niech . Następnie
∥ D.1- D2)∥2)≥ ϵS k = { i : δ i > ϵ 2δja= | re1(i)−D2(i)|∑i∈ S k δ 2 i ≥ϵ2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Dowód . Mamy
Ograniczmy drugą sumę; chcemy zmaksymalizować zastrzeżeniem . Ponieważ funkcja jest ściśle wypukła i rośnie, możemy zwiększyć cel, biorąc dowolne i zwiększając o jednocześnie zmniejszając o . Tak więc cel zostanie zmaksymalizowany przy użyciu jak największej liczby terminów przy ich maksymalnych wartościach, a pozostałe przy∑ i ∉ S k δ 2 i ∑ i ∉ S k δi≤2x↦x2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δ i γ δ j γ 0 ϵ 2δi≥δjδiγδjγ0. Maksymalna wartość każdego terminu wynosi , a istnieją najwyżej warunki tej wartości (ponieważ sumują się one maksymalnie do ). Więc
2kϵ2k 2∑i∉Skδ 2 i ≤2k2kϵ2)2)∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
Roszczenie . Niech . Jeśli , istnieje co najmniej jeden punkt z i .pi=max{D1(i),D2(i)}i ∈ [ n ] p i > ϵ 2∥D1−D2∥2≥ϵi∈[n] δi≥ϵ √pi>ϵ24δi≥ϵpi√2
Dowód . Po pierwsze, wszystkie punkty w mają z (a nie może być pusty dla według poprzedniego zastrzeżenia).p i ≥ δ i > ϵ 2Sk Skk>2pi≥δi>ϵ2kSkk>2
Po drugie, ponieważ mamy
lub, przestawienie,
więc nierówność
utrzymuje co najmniej jeden punkt w . Teraz wybierz . ∑ipi≤2∑i∈Sk(δ 2 i -piϵ2(1
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
δ2i≥piϵ2(1∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
SKk=4◻δ2i≥piϵ2(12−1k)
Skk=4□
Roszczenie (fałszywie pozytywne) . Jeśli , nasz algorytm deklaruje je inaczej z prawdopodobieństwem co najwyżej .e - Ω ( M )D1=D2e−Ω(M)
Szkic . Rozważ dwa przypadki: i . W pierwszym przypadku liczba próbek nie przekroczy z obu rozkładów: Średnia liczba próbek wynosi a ograniczenie ogona mówi, że z prawdopodobieństwem , „s próbki nie może przekraczać wartości średnich od dodatku ; jeśli staramy się zachować wartość w ograniczeniu ogona, możemy związać z nią związanie bez względu na liczbę takich punktów (intuicyjnie ograniczenie zmniejsza się wykładniczo w liczbie możliwych punktów).P I równa od ε 2 / 16 ı X / 8 < x / 16 e - omów ( X / P I ) = ε 2 e - Ω (pi<ϵ2/16pi≥ϵ2/16iX/8<X/16 iX / 16 P Ie−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
W przypadku możemy użyć granicy Chernoffa: Mówi ona, że gdy pobieramy próbek i rysujemy punkt z prawdopodobieństwem , prawdopodobieństwo różni się od jego średniej o to co najwyżej . Niech , więc prawdopodobieństwo jest ograniczone przez .m s P m c √pi≥ϵ2/16mppm e - Ω ( ( c √cpm−−−√ c= √e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Więc z prawdopodobieństwem , (dla obu dystrybucji) liczba próbek mieści się w jego średnia . W ten sposób nasz test nie złapie tych punktów (są one bardzo blisko siebie) i możemy związać się związkiem na wszystkich z nich. i √1−ϵ2e−Ω(M)i piXpiXϵ2−−−−√X√16 16/ϵ2◻piXϵ216/ϵ2□
Roszczenie (fałszywe negatywy) . Jeśli , nasz algorytm deklaruje ich identyczność z prawdopodobieństwem co najwyżej .ϵ 2 e - Ω ( M )∥D1−D2∥2≥ϵϵ2e−Ω(M)
Szkic . Jest pewien punkt z i . To samo ograniczenie Chernoffa, co w poprzednim twierdzeniu, mówi, że z prawdopodobieństwem liczba próbek różni się od średniej najwyżej . To jest dla (WLOG) dystrybucji która ma ; ale istnieje jeszcze mniejsze prawdopodobieństwo liczby próbek z rozkładuiδ i ≥ ε √pi>ϵ2/41-ϵ2e-Ω(M)ipim√δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipim 1pi=D1(i)=D2(i)+δii2pim−−−√X√161pi=D1(i)=D2(i)+δii2 różni się od średniej o tę sumę dodatków (ponieważ średnia i wariancja są niższe).
Tak więc z dużym prawdopodobieństwem liczba próbek z każdego rozkładu mieści się w zakresie jego średniej; ale ich prawdopodobieństwo różni się o , więc ich średnie różnią się o
√i δiXpiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Z dużym prawdopodobieństwem dla punktu liczba próbek różni się co najmniej o . √i ◻#samples(1)−−−−−−−−−−−√X√4□
Aby ukończyć szkice, musielibyśmy bardziej rygorystycznie wykazać, że dla wystarczająco dużego liczba próbek jest wystarczająco bliska jego średniej, że gdy algorytm używa zamiast nic to nie zmienia (co powinno być proste, pozostawiając trochę stałego miejsca w stałych).i √Mi √#samples−−−−−−−−√mean−−−−−√