Dolna granica dla testowania bliskości w normie ?


11

Zastanawiałem się, czy istnieje jakakolwiek dolna granica (pod względem złożoności próby) znana z następującego problemu:

Biorąc pod uwagę przykładowy dostęp do wyroczni do dwóch nieznanych dystrybucji , D_2 w \ {1, \ dots, n \} , test (whp) czyD1D2{1,,n}

  • D1=D2
  • lub d2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu i in. [BFR + 00] pokazało, że O(1ϵ4) próbki były wystarczające, ale nie znalazłem żadnej wzmianki o dolnej granicy?

Wydaje mi się, że zawsze można pokazać dolną granicę Ω(1ϵ2) , zmniejszając zadanie rozróżnienia monety bezstronnej kontra ϵ do tego problemu (symulując rozkład obsługiwany tylko na dwóch wskazuje i odpowiada na pytania testera zgodnie z rzutami monetą iid), ale wciąż pozostawia to kwadratową lukę ...

(Inną kwestią, którą chciałbym się zainteresować, jest dolna granica w szacowaniu (do dodatku ϵ ) tej odległości L2 - ponownie nie znalazłem odniesienia do takiego wyniku w literaturze)

Dzięki za pomoc,


Ten problem z obietnicą wydaje się bardzo podobny do tego , który Sahai i Vadhan nazywają różnicą statystyczną , co jest kompletnym problemem dla klasy SZK (statystyczna wiedza zerowa); używają odległości . cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Edycja: również myślę, że zakładają, że masz obwód obliczający rozkłady, a nie dostęp do Oracle).L1
usul

Cześć, jak wspomniano w innym komentarzu, różnica między normą a normą jest tutaj naprawdę kluczowa - ponadto w artykule określają wyraźny (i nie arbitralny) próg (w jednej z uwag wyjaśniają, że próg ten musi spełniać pewne szczególne ograniczenia); i chcesz rozróżnić vs. (który jest bliższy tolerancyjnemu testowaniu / szacowaniu odległości niż „zwykłe testowanie”, gdzie chcesz przetestować vs. (ale dla każdego ustalonego )). L2L1τ=1/3d1τd21τd2=0εd2ϵϵ
Clement C.

Odpowiedzi:


6

Wygląda na to, że próbki - jak usul pokazał poniżej - wystarczają do testowania, więc złożoność próbki wynosi dokładnie ; faktycznie okazuje się, że ta liczba próbek wystarcza nam nawet do nauki aż do dodatku wrt normy .O(1/ϵ2)D ϵ L 2Θ(1/ϵ2) DϵL2


Niech jest funkcją gęstości empiryczny otrzymane drogą ciągnięcia IID próbki i ustawienie Następnie gdzie . ms1,...,sm~D D (k)D^ms1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Xkk[n], ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk(dla ) nie są niezależne, ale możemy napisać , aby , i stosując nierówność Markova k[n] m3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
PLD - D 2 2ε2m3ϵ2 P{D - D2ε}1
EDD^22ϵ23
P{DD^2ϵ}13.

(Odniosłem się do odpowiedzi na usul zaczynającej się od „Spróbuję odpokutować za mój poprzedni błąd, pokazując coś przeciwnego [...]” - co tak naprawdę jest powyżej tego. Nie spodziewałem się tego :)) Co do nauki w górnej granicy można wykazać, że najbardziej naiwny algorytm (tj. ten, który pobiera próbki i generuje gęstość empiryczną, którą określa), daje rozkład który jest, ze stałym prawdopodobieństwem, -close do w odległości . D εm=O(1/ϵ2)D^ϵL 2DL2
Clement C.

@DW Właśnie edytowałem swoją odpowiedź.
Klemens C.

3

Spróbuję odpokutować za mój poprzedni błąd, pokazując coś przeciwnego - że próbki są wystarczające (dolna granica jest prawie ciasny)! Zobacz co myślisz ....1/ϵ2Θ~(1ϵ2)1/ϵ2

Kluczowa intuicja rozpoczyna się od dwóch obserwacji. Po pierwsze, aby rozkłady miały odległość , muszą istnieć punkty z dużym prawdopodobieństwem ( ). Na przykład, gdybyśmy mieli punkty prawdopodobieństwa , mielibyśmy . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3D 1 - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

Po drugie, rozważ jednolite rozkłady o odległości . Gdybyśmy mieli punkty prawdopodobieństwa , wówczas każdy z nich różniłby się i wystarczałyby próbki . Z drugiej strony, gdybyśmy mieli punkty , każdy z nich musiałby różnić się o próbki i ponownie (stała liczba na punkt) wystarczy. Możemy więc mieć nadzieję, że wśród wspomnianych wcześniej punktów o wysokim prawdopodobieństwie zawsze istnieje punkt różniący się „wystarczająco”, aby . ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2L2ϵO(1)O(1)O(ϵ)1/ϵ2O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

Algorytm. Biorąc pod uwagę i parametr ufności , niech . Narysuj próbki z każdej dystrybucji. Niech będą odpowiednio wyższą, niższą liczbą próbek dla punktu . Jeśli istnieje punkt dla którego i , zadeklaruj różne rozkłady. W przeciwnym razie zadeklaruj je tak samo.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii[n]aiXXϵ2ai,biii[n] ai-biaiX8aibiaiX4

Granice poprawności i pewności ( ) zależą od następującego lematu, który mówi, że całe odchylenie w odległości pochodzi od punktów, których prawdopodobieństwo różni się o . L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

Roszczenie. Załóżmy, że . Niech. Niech . Następnie D1D22ϵS k = { i : δ i > ϵ 2δi=|D1(i)D2(i)|i S k δ 2 iϵ2(1-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Dowód . Mamy Ograniczmy drugą sumę; chcemy zmaksymalizować zastrzeżeniem . Ponieważ funkcja jest ściśle wypukła i rośnie, możemy zwiększyć cel, biorąc dowolne i zwiększając o jednocześnie zmniejszając o . Tak więc cel zostanie zmaksymalizowany przy użyciu jak największej liczby terminów przy ich maksymalnych wartościach, a pozostałe przy i S k δ 2 i i S k δi2xx2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δ i γ δ j γ 0 ϵ 2δiδjδiγδjγ0. Maksymalna wartość każdego terminu wynosi , a istnieją najwyżej warunki tej wartości (ponieważ sumują się one maksymalnie do ). Więc 2kϵ2k 2iSkδ 2 i2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Roszczenie . Niech . Jeśli , istnieje co najmniej jeden punkt z i .pi=max{D1(i),D2(i)}i [ n ] p i > ϵ 2D1D22ϵi[n] δiϵpi>ϵ24δiϵpi2

Dowód . Po pierwsze, wszystkie punkty w mają z (a nie może być pusty dla według poprzedniego zastrzeżenia).p iδ i > ϵ 2Sk Skk>2piδi>ϵ2kSkk>2

Po drugie, ponieważ mamy lub, przestawienie, więc nierówność utrzymuje co najmniej jeden punkt w . Teraz wybierz . ipi2iSk(δ 2 i -piϵ2(1

iSkδi2ϵ2(121k)iSkpi,
δ2ipiϵ2(1
iSk(δi2piϵ2(121k))0,
SKk=4
δi2piϵ2(121k)
Skk=4

Roszczenie (fałszywie pozytywne) . Jeśli , nasz algorytm deklaruje je inaczej z prawdopodobieństwem co najwyżej .e - Ω ( M )D1=D2eΩ(M)

Szkic . Rozważ dwa przypadki: i . W pierwszym przypadku liczba próbek nie przekroczy z obu rozkładów: Średnia liczba próbek wynosi a ograniczenie ogona mówi, że z prawdopodobieństwem , „s próbki nie może przekraczać wartości średnich od dodatku ; jeśli staramy się zachować wartość w ograniczeniu ogona, możemy związać z nią związanie bez względu na liczbę takich punktów (intuicyjnie ograniczenie zmniejsza się wykładniczo w liczbie możliwych punktów).P I równa od ε 2 / 16 ı X / 8 < x / 16 e - omów ( X / P I ) = ε 2 e - Ω (pi<ϵ2/16piϵ2/16iX/8<X/16 iX / 16 P IeΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

W przypadku możemy użyć granicy Chernoffa: Mówi ona, że ​​gdy pobieramy próbek i rysujemy punkt z prawdopodobieństwem , prawdopodobieństwo różni się od jego średniej o to co najwyżej . Niech , więc prawdopodobieństwo jest ograniczone przez .m s P m c piϵ2/16mppm e - Ω ( ( c cpm c=eΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

Więc z prawdopodobieństwem , (dla obu dystrybucji) liczba próbek mieści się w jego średnia . W ten sposób nasz test nie złapie tych punktów (są one bardzo blisko siebie) i możemy związać się związkiem na wszystkich z nich. i 1ϵ2eΩ(M)i piXpiXϵ2X16 16/ϵ2piXϵ216/ϵ2

Roszczenie (fałszywe negatywy) . Jeśli , nasz algorytm deklaruje ich identyczność z prawdopodobieństwem co najwyżej .ϵ 2 e - Ω ( M )D1D22ϵϵ2eΩ(M)

Szkic . Jest pewien punkt z i . To samo ograniczenie Chernoffa, co w poprzednim twierdzeniu, mówi, że z prawdopodobieństwem liczba próbek różni się od średniej najwyżej . To jest dla (WLOG) dystrybucji która ma ; ale istnieje jeszcze mniejsze prawdopodobieństwo liczby próbek z rozkładuiδ iε pi>ϵ2/41-ϵ2e-Ω(M)ipimδiϵpi/21ϵ2eΩ(M)ipim 1pi=D1(i)=D2(i)+δii2pimX161pi=D1(i)=D2(i)+δii2 różni się od średniej o tę sumę dodatków (ponieważ średnia i wariancja są niższe).

Tak więc z dużym prawdopodobieństwem liczba próbek z każdego rozkładu mieści się w zakresie jego średniej; ale ich prawdopodobieństwo różni się o , więc ich średnie różnią się o i δiXpiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

Z dużym prawdopodobieństwem dla punktu liczba próbek różni się co najmniej o . i#samples(1)X4

Aby ukończyć szkice, musielibyśmy bardziej rygorystycznie wykazać, że dla wystarczająco dużego liczba próbek jest wystarczająco bliska jego średniej, że gdy algorytm używa zamiast nic to nie zmienia (co powinno być proste, pozostawiając trochę stałego miejsca w stałych).i Mi#samplesmean


Cześć, dziękuję za to - mam kilka pytań na temat algorytmu i analizy (dotyczących kilku punktów, których nie jestem pewien): zakładając, że chcę na końcu tylko stałe prawdopodobieństwo sukcesu, co oznacza, że Stała , jeśli dobrze rozumiem (chyba że nie dostałam tego, co było )? Zatem w tym przypadku przejście do : zgodnie z algorytmem staje się - czy to prawda? M M X Θ2/3MMXΘ(log1ϵ)
Clement C.,

@ClementC. Przepraszam, nie byłem bardzo jasny! Twierdzenie jest takie, że jeśli narysujemy próbki , wówczas prawdopodobieństwo pomyłki wynosi , więc dla stałe prawdopodobieństwo błędu, jego próbki. O(e-M)O1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

OK, właśnie to zebrałem. Mając to na uwadze, przejdę przez dowód - jeszcze raz dziękuję za poświęcony na to czas!
Clement C.,

1

Możesz zacząć od rozwiązania tego problemu dla przypadku . Jestem pewien, że próbki będą w tym przypadku konieczne i wystarczające.Θ ( 1 /n=2Θ(1/ϵ2)

Możliwe, że może okazać się pomocne sprawdzenie konwersji między odległością a odległością (całkowita odległość zmiany).L2L1

  • Wiadomo, że w przypadku jednej próbki, jeśli rozkłady są znane, całkowity dystans zmiany doskonale charakteryzuje przewagę, z jaką można odróżnić od . Tak więc, jeśli całkowity dystans zmiany jest duży, a rozkłady są znane, można zbudować test, który jest poprawny z dużym prawdopodobieństwem; jeśli całkowita odległość zmiany jest mała, nie można. Nie wiem, co można powiedzieć o przypadku, w którym całkowita odległość zmiany jest duża, ale rozkłady są nieznane.D1D2

  • Następnie spójrz na dystrybucje produktów, i . Stosując całkowitą odległość zmiany (odległość ), wydaje się, że nie ma żadnych dobrych granic, które dotyczą do . Jednak korzystając z odległości , uważam, że istnieją dobre oszacowania jako funkcji . (Niestety, nie mogę wydobyć konkretnego odniesienia do tych oszacowań / granic, więc mam nadzieję, że nie pomylę się.) Znane są również granice, które pozwalają oszacować odległość jako funkcję odległości . D n 2 L 1 | | D n 1 - D nD1nD2nL1| | D1-D2| | 1L2| | D n 1 -D n 2 | | 2| | D1-D2| | 2L1L2||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • Dlatego jednym z podejść, które możesz wypróbować, byłoby związanie , a następnie powiązanie .| | D n 1 - D||D1nD2n||2||D1nD2n||1

Nie wiem, czy to doprowadzi gdziekolwiek dobrze, czy nie; to tylko pomysł. Prawdopodobnie autorzy cytowanego przez ciebie artykułu już próbowali lub rozważali coś takiego.

Ewentualnie pomocne referencje:


Cześć, dziękuję za odpowiedź! Interesuje mnie jednak asymptotyczna dolna granica, kiedy . W szczególności związek między i obejmuje czynnik - co oznacza, że ​​są one rzeczywiście równoważne stałej, ale asymptotycznie bardzo różne; użycie L_1 jako proxy nie jest opcją, o ile mogę stwierdzić (jeśli chodzi o testowanie bliskości w odległości , dokładna złożoność to [BFR + 10 , Val11 ]L 2nL2L1 nL1L1Θ(nnL1L1Θ(n2/3/poly(ϵ))
Clement C.

0

EDYCJA: to jest nieprawidłowe! Zobacz dyskusję w komentarzach - zwrócę uwagę na wadę poniżej.

Myślę, że możemy powiedzieć, że są wymagane.1ϵ4

Ustaw . Niech będzie rozkładem równomiernym (prawdopodobieństwo każdego punktu ) i niech różni się od jednolitego sumą addytywną w każdym punkcie. Sprawdź, odległość wynosi .D1=Θ(ϵ2)D2±Θ(ϵ2)L2n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

Więc musimy odróżnić -sided uczciwą monetę z -sided -biased monety. Myślę, że powinno to być co najmniej tak trudne, jak odróżnienie stronnej uczciwej monety od stronnej -obojętnej monety, która wymagałaby próbek. Edycja: to jest nieprawidłowe! Moneta jest dodatkowa , ale jest stronnicza mnożona przez stały czynnik. Jak zauważa DW, oznacza to, że stała liczba próbek na punkt odróżnia od .n Θ ( ϵ 2 ) 2 2 Θ ( ϵ 2 ) ΘnnΘ(ϵ2)22Θ(ϵ2)ϵ2D1Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


Zauważ, że jest tak daleko, jak to tylko możliwe. Konkretnie, załóżmy, że próbowaliśmy zwiększyć do, powiedzmy, . W rozkładzie równomiernym każdy punkt ma prawdopodobieństwo . Ale w każdy punkt musiałby różnić się od munduru o . Nie jest to możliwe, ponieważ . n1ϵ4n ϵ3D2ϵ2,5ϵ2,51ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

Bardziej abstrakcyjnie, załóżmy, że chcemy, aby każdy punkt różnił się od jednolitego o . Zatem największą wartością, jaką możemy ustawić na byłoby . Aby uzyskać odległość , musimy upewnić się, że pierwiastek kwadratowy sumy odległości wynosi , więc , więc więc , i otrzymujemy . nϵkn L2ϵϵ1ϵkL2ϵϵϵ k / 2 =ϵk=2n= 1n(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

Myślę też, że ten sam argument mówi, że jeśli interesuje odległość przy , potrzebujemy , więc wybralibyśmy , więc liczba próbek wynosiłaby . Myślę, że ma to sens jako granica niezależna od . Zbliża się do nieskończoności jako . Jeśli próbujesz rozróżnić dwie rozkłady w odległości bez ograniczenia na , zrobiłbym ograniczeń i rozłożyłbym różnicę dowolnie cienką, abyś nigdy nie mógł ich rozróżnić ( p > 1 k = pLpp>1 n=1/ϵ pk=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnntzn. brak wystarczającej liczby próbek dla wszystkich ). Podchodzi także do jako ; ma to sens jako ograniczenie, ponieważ dla normy możemy ustawić i pozwolić, aby każdy punkt różnił się o ; musimy próbować kilka punktów razy, aby upewnić się, że różni się od jednolitego, który pobierze próbki .n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. Czy naprawdę masz na myśli, że różni się od munduru przez w każdym punkcie? Podejrzewam, że to literówka, a miałeś na myśli . D2±1/ϵ2±ϵ2
DW

1
2. Nie kupuję tego, że odróżnienie od wymaga próbek. Wygląda mi na to, że wystarczą próbki . Objaśnienie (intuicja): załóżmy, że zbieramy próbki i liczymy, ile razy występuje każda możliwa wartość. Jeśli pochodzą z , każdy powinien pojawić się 100 razy (z std dev 10). Jeśli pochodzą z , każdy powinien wystąpić 200 razy (std dev 14) dla połowy z nich, / 0 razy (std dev 0) dla drugiej połowy. Łatwo to rozróżnić, jeśli wiesz, że masz do czynienia z lub . D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW (1) masz rację! Naprawiony. (2) Jak to ująłeś, zgadzam się, ale myślę, że przy różnych wyborach stałych jest trudniej. Wyobrażam sobie coś takiego: , więc stawia prawdopodobieństwo w każdym punkcie. Wtedy różni się o w każdym punkcie (sprawdź, odległość wynosi ), więc stawia prawdopodobieństwo lub w każdym punkcie. n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
Myślę, że próbki wciąż wystarczają. Zbierz próbek i policz, ile razy występuje każda możliwa wartość. Dla każdy powinien wystąpić 1 000 000 razy (std dev ). Dla każdy powinien wystąpić 900 000 razy (std dev ) lub 1100000 razy (std dev ). Wystarczy to łatwo rozróżnić między nimi, jeśli wiemy, że mamy do czynienia z lub , ponieważ różnica między 1 000 000 a 1 100 000 to 100 odchyleń standardowych, tj. Ogromna. m = 10 6 n D 1 1000 D 21000 1000 D 1 D 2O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@DW Myślałem o tym więcej - masz rację. Jeżeli ich średnie wartości różnią się stałym współczynnikiem multiplikatywnym, wówczas powinna je rozróżniać stała liczba próbek na punkt. Liczy się mnożący, a nie addytywny czynnik. Takie podejście daje jedynie dolną granicę . 1/ϵ2
usul
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.