Teoria informacji użyta do udowodnienia trafnych twierdzeń kombinatorycznych?


54

Jakie są twoje ulubione przykłady, w których teoria informacji jest wykorzystywana do udowodnienia zgrabnego kombinatorycznego stwierdzenia w prosty sposób?

Niektóre przykłady, które mogę wymyślić, są związane z dolnymi granicami dla dekodowanych lokalnie kodów, np. W tym artykule: załóżmy, że dla wiązki ciągów binarnych długości ma to, że dla każdego , dla różny pary { },Zatem m jest co najmniej wykładnicze w n, gdzie wykładnik zależy liniowo od średniego stosunku . n i k i j 1 , j 2 e i = x j 1x j 2 . k i / mx1,...,xmnikij1,j2

ei=xj1xj2.
ki/m

Innym (pokrewnym) przykładem są pewne nierówności izoperymetryczne na kostce boolowskiej (prosimy o rozwinięcie tego w odpowiedziach).

Czy masz więcej fajnych przykładów? Najlepiej krótki i łatwy do wyjaśnienia.


czy ktoś może podać odwołanie do „Innym (pokrewnym) przykładem są pewne nierówności izoperymetryczne na kostce boolowskiej”?
vzn

Odpowiedzi:


40

Dowód Mosera o konstruktywnej lemacie Lovasz . Zasadniczo pokazuje, że w warunkach lokalnego lematu, drugi najprostszy algorytm dla SAT, który można wymyślić, działa. (Pierwszym najprostszym może być po prostu wypróbowanie losowego przydziału, dopóki jedno nie zadziała. Dowód, że działa to w czasie wielomianowym, jest prawdopodobnie najbardziej eleganckim zastosowaniem teorii informacji (lub złożoności Kołmogorowa, jakkolwiek chcesz to nazwać w tym przypadku), jaką kiedykolwiek widziałem.


1
Piękny dowód złożoności Mosera na złożoność Kołmogorowa wyjaśniono tutaj: blog.computationalcomplexity.org/2009/06/… , ale muszę przyznać, że szukałem bardziej przykładu typu entropii / wzajemnej informacji / obliczeń ...
Dana Moshkovitz,

Istnieje kilka bardzo ciekawych zastosowań Złożoność Kołmogorowa podane jako odpowiedzi na to pytanie: cstheory.stackexchange.com/questions/286
Arnab

Terry Tao omówił również argument Mosera na swoim blogu: terrytao.wordpress.com/2009/08/05/…
Anthony Leverrier

5
Właściwie w jego drugim artykule (z Tardos) nie musisz już uciekać się do rekurencji. Po prostu szukasz niezadowolonej klauzuli, wybierasz losowe przypisanie jej zmiennych i iterujesz . Otóż ​​to. Z jakiegoś powodu prostszy algorytm (mający tę samą analizę) nie utknął.
Yuval Filmus

@DanaMoshkovitz: Nie wiem, dlaczego nie przyszło mi do głowy, aby powiedzieć wcześniej w odpowiedzi na twój komentarz: złożoność Kołmogorowa i entropia są pod wieloma względami zasadniczo równoważne. Patrz np młot Romaschenko-Shen-Vershchagin: dx.doi.org/10.1006/jcss.1999.1677 . Na przykład, na podstawie [HRSV], dowód Lemmy Shearera w odpowiedzi arnabu można udowodnić w zasadzie tym samym dowodem, stosując złożoność Kołmogorowa zamiast entropii. Różnica polega tylko na punkcie widzenia: K to długość opisu, H to około ... Czasami jedno jest łatwiejsze / bardziej naturalne niż drugie. pilogpi
Joshua Grochow

33

Moim ulubionym przykładem tego typu jest oparty na entropii dowód Lemmy Shearera. (Dowiedziałem się o tym dowodzie i kilku innych bardzo ładnych z Entropii i liczenia Jaikumara Radhakrishnana .)

Twierdzenie: Załóżmy, że punktów w R 3 , które n x Najpierw odrębne występy na y oo -plane, n y odrębne występy na x oo -plane i n ż odrębne występy na x y -plane. Następnie n 2n x n y n z .nR3nxyznyxznzxyn2nxnynz

Dowód: Niech będzie punktem losowo wybranym losowo spośród n punktów. Niech p x , p y , p z oznaczają jego rzuty odpowiednio na płaszczyzny y z , x z i x y . p=(x,y,z)npxpypzyzxzxy

Z jednej strony , H [ p x ] log n x , H [ p y ] log n y i H [ p z ] log n z , przez podstawowe właściwości entropii.H[p]=lognH[px]lognxH[py]lognyH[pz]lognz

Z drugiej strony mamy a także H [ p x ] = H [ y ] + H [ z | y ] H [ p y ] = H [ x ] + H [ z

H[p]=H[x]+H[y|x]+H[z|x,y]
H[px]=H[y]+H[z|y]
H [ p z ] = H [ x ] + H [ y | x ] Dodanie trzech ostatnich równań daje nam: H [ p x ] + H [ p y ] + H [ p z ] = 2 H [ x ] + H [ y ] + H [ y | x ] + H
H[py]=H[x]+H[z|x]
H[pz]=H[x]+H[y|x]
H[px]+H[py]+H[pz]= 2H[x]+H[y]+ H.[y|x]+ + H [ z | y ] 2 H [ x ] + 2 H [ y | x ] + 2 H [ z | x , y ] = 2 H [ p ] , gdzie wykorzystaliśmy fakt, że warunkowanie zmniejsza entropię (ogólnie H [ a ] H [ a | b ]H.[z|x] +H.[z|y] 2)H.[x]+2)H.[y|x]+2)H.[z|x,y]= 2)H.[p]H.[za]H.[za|b]dla dowolnych zmiennych losowych ).za,b

Mamy zatem lub n 2n x n y n z .2)lognlognx+logny+lognzn2nxnynz


6
Powiązany artykuł do sprawdzenia to „Hypergraphs, Entropia i nierówności” Ehuda Friedguta. Pokazuje, w jaki sposób perspektywa entropii, w szczególności uogólniona lemina Shearera, może łatwo odzyskać wiele standardowych nierówności, a także niektóre niestandardowe, o skomplikowanym wyglądzie. Myślę, że daje to świetną perspektywę. Link: ma.huji.ac.il/~ehudf/docs/KKLBKKKL.pdf
Andy Drucker

26

Dowód Radhakrishnana dla twierdzenia Bregmana, że ​​liczba idealnych dopasowań na wykresie dwudzielnym ( L R , E ) wynosi co najwyżej v L ( d ( v ) ! ) 1 / d ( v ) . Dowód wykorzystuje dwa bardzo sprytne pomysły. Oto szkic dowodu:p(LR,E)vL(d(v)!)1/d(v)

  • Wybierz idealnie pasujące równomiernie. Entropia tej zmiennej to H ( M ) = log p .MH(M)=logp
  • Na , niech x V jest wierzchołek w R , który jest dopasowany do V w M .vLXvRvM
  • Zmienna ma takie same informacje jak M , więc H ( M ) = H ( X ) .X=(Xv:vL)MH(M)=H(X)
  • Sprytna idea 1: Poprzez losowe (i jednolite) wybranie rzędu na L , Radhakrishnan zapewnia „losową regułę łańcucha” stwierdzającą H ( X ) = v L H ( X v | X u : u < v , ) .LH(X)=vLH(Xv|Xu:u<v,)
  • Na podstawie informacji w warunkach ( ) możemy określić N v = | N ( v ) X u : u < v | (z grubsza: liczba opcji dopasowania v ).Xu:u<v,Nv=|N(v)Xu:u<v|v
  • Ponieważ jest określana na podstawie tych informacji, uwarunkowana entropia nie zmienia w zakresie równości H ( X v | X u : u < v , ) = H ( X v | X u : u < v , , N v ) .NvH(Xv|Xu:u<v,)=H(Xv|Xu:u<v,,Nv)
  • Sprytna idea 2: „Zapominając” o informacjach , możemy jedynie zwiększyć entropię: H ( X v | X u : u < v , , N v ) H ( X v | N v ) .Xu:u<v,H(Xv|Xu:u<v,,Nv)H(Xv|Nv)
  • Szalony fakt: Zmienna jest równomiernie rozłożona na zbiorze 1 , , d ( v ) .Nv1,,d(v)
  • Teraz, aby obliczyć entropię , sumujemy wszystkie wartości N v : H ( X v | N v ) = d ( v ) i = 1 1H(Xv|Nv)NvH(Xv|Nv)=i=1d(v)1d(v)H(Xv|Nv=i)1d(v)i=1d(v)logi=log((d(v)!)1/d(v)).
  • Wynik wynika z połączenia wszystkich nierówności i wzięcia wykładników.

Uogólnienie tej nierówności jest Kahn-Lovász Twierdzenie Numer doskonałych skojarzeń w każdym wykresie wynosi co najwyżej gatunku V V ( G ), ( d ( v ) ! ) 1 / 2 d ( v ) . Dowód entropii tego wyniku został udowodniony przez Cutlera i Radcliffe'a .GvV(G)(d(v)!)1/2d(v)


1
Świetny przykład! Mały punkt: gdy szacujesz , prawdopodobnie możesz jedynie powiedzieć, że H ( X vN v = i ) jest górną granicą log i . H(XvNv)H(XvNv=i)logi
Srikanth

Masz absolutną rację, a ja zredagowałem odpowiedź, by użyć nierówności.
Derrick Stolee

20

Bardzo ładne przykłady zawarte są w dwóch artykułach Pippengera Anonimowo-teoretyczna metoda w teorii kombinatorycznej. J. Comb. Teoria, Ser. A 23 (1): 99-104 (1977) oraz Entropia i wyliczenie funkcji boolowskich. Transakcje IEEE dotyczące teorii informacji 45 (6): 2096–2100 (1999). W rzeczywistości kilka prac Pippengera zawiera urocze dowody kombinatorycznych faktów za pomocą entropii / wzajemnej informacji. Dwie książki: Jukna, Extremal Combinatorics With Applications in Computer Science i Aigner, Combinatorial Search mają kilka dobrych przykładów. Lubię też dwa artykuły Madiman i in. Teoretyczne nierówności w addytywnym kombinatoryka i Terence Tao, szacunki sum Entropy (można je znaleźć w Google Scholar). Mam nadzieję, że to pomoże.


Wygląda jak świetna lista lektur!
Dana Moshkovitz

17

Innym świetnym przykładem jest alternatywny dowód Terry Tao na lemat o regularności wykresu Szemerédiego . Używa perspektywy teoretycznej, aby udowodnić silną wersję lematu regularności, co okazuje się niezwykle przydatne w jego dowodzie lematu regularności dla hipergraphów . Dowód Tao jest jak dotąd najbardziej zwięzłym dowodem lematu o regularności hipergrafów.

Pozwól, że spróbuję wyjaśnić na bardzo wysokim poziomie tę teoretyczną informację.

Załóżmy, że masz dwuczęściowy wykres z dwoma zestawami wierzchołków V 1 i V 2 oraz zestawem brzegowym E podzbiorem V 1 × V 2 . Gęstość krawędzi G wynosi ρ = | E | / | V 1 | | V 2 | . Mówimy, G jest ε -regular jeżeli dla wszystkich U 1V 1 i U 2V 2GV1V2V1×V2Gρ=|mi|/|V.1||V.2)|solϵU1V.1U2)V.2), gęstość krawędzi podsgrafu indukowana przez i U 2 wynosi ρ ± ϵ | U 1 | | U 2 | / | V 1 | | V 2 | .U1U2)ρ±ϵ|U1||U2)|/|V.1||V.2)|

Teraz rozważ wybranie wierzchołka z V 1 i wierzchołka x 2 z V 2 , niezależnie i równomiernie losowo. Jeśli ε jest mały i U 1 , U 2 są duże, możemy interpretować ε -regularity z G jak mówienie, że klimatyzacja x 1 aby być w U 1 i x 2 , aby być w U 2 nie wpływa znacznie prawdopodobieństwo, że ( x 1 , x 2x1V.1x2)V.2)ϵU1,U2)ϵsolx1U1x2)U2) Tworzy krawędź z G . Innymi słowy, nawet po otrzymaniu informacji, że x 1 jest w U 1, a x 2 jest w U 2 , nie uzyskaliśmy wielu informacji na temat tego, czy ( x 1 , x 2 ) jest krawędzią, czy nie.(x1,x2))solx1U1x2)U2)(x1,x2))

Lemat Szemeredi (nieformalnie) gwarantuje, że dla każdego wykresu można znaleźć podział i podział V 2 na podzbiory o stałej gęstości, tak że dla większości takich par podzbiorów U 1V 1 , U 2V 2 , indukowany wykres podrzędny na U 1 × U 2 jest ϵ- nieregularny. Dokonując powyższej interpretacji, biorąc pod uwagę dowolne dwie zmienne o wysokiej entropii x 1 i x 2 , oraz dane dowolne zdarzenie E ( xV.1V.2)U1V.1,U2)V.2)U1×U2)ϵx1x2) , możliwe jest znalezienie zmiennych o niskiej entropii U 1 ( x 1 ) i U 2 ( x 2 ) - „niska entropia”, ponieważ podzbiory U 1 i U 2 mają stałą gęstość - takie że E jest w przybliżeniu niezależne od x 1 | U 1 i x 2 | U 2mi(x1,x2))U1(x1)U2)(x2))U1U2)mix1|U1x2)|U2)lub że wzajemna informacja między zmiennymi jest bardzo mała. Tao faktycznie formułuje znacznie silniejszą wersję lematu regularności, używając tego ustawienia. Na przykład, nie wymaga on, aby i x 2 były zmiennymi niezależnymi (chociaż, o ile wiem, nie było jeszcze zastosowania tego uogólnienia). x1x2)


15

Zasadniczo jest to cały kurs poświęcony temu pytaniu:

https://catalyst.uw.edu/workspace/anuprao/15415/86751

Kurs wciąż trwa. Dlatego nie wszystkie notatki są dostępne w chwili pisania tego. Ponadto niektóre przykłady z kursu zostały już wspomniane.


3
ładny wskaźnik: wygląda jak świetna klasa.
Suresh Venkat

1
O ile mi wiadomo, ta oferta jest w połowie kursu, z notatkami zawierającymi przykłady, które dają dobre odpowiedzi na moje pytanie, i w połowie seminarium, obejmujące przykłady takie jak komunikacja dolnej granicy, ekstraktory, równoległe powtarzanie itp., Które wymagają znacznie więcej niż tylko teoria informacji (tutaj nie ma notatek, tylko linki do oryginalnych prac).
Dana Moshkovitz,

7

n2)re1±ϵreO(logn/ϵ2))Ω(logn/(ϵ2)log(1/ϵ)))log(1/ϵ)


4
1re

Wydaje się bardzo naturalne i fajne, że te czysto geometryczne wyniki zostały udowodnione przez ludzi z TCS!
ilyaraz,

6

mu[m]x[m]x=utt

O(m1/t)logmuti[t](logm)/tiu

X[m]H[X]=logmX1,,XttH[X]=H[X1]+H[X2|X1]++H[Xt|X1,,Xt1]tlogsssm1/t

t>1



3

Analiza średnich przypadków algorytmów wykorzystujących złożoność Kołmogorowa przez Jiang, Li, Vitanyi.

„Analiza złożoności algorytmów średniej wielkości przypadków jest bardzo praktycznym, ale bardzo trudnym problemem w informatyce. W ciągu ostatnich kilku lat wykazaliśmy, że złożoność Kołmogorowa jest ważnym narzędziem do analizy złożoności algorytmów w średnich przypadkach. Opracowaliśmy metodę nieściśliwości [7]. W tym artykule wykorzystujemy kilka prostych przykładów, aby dodatkowo zademonstrować moc i prostotę takiej metody. Udowadniamy ograniczenia średniej liczby stosów (kolejek) wymaganych do sortowania sekwencyjnego lub równoległego Queueusort lub Stacksort. ”

Zobacz także np. Złożoność Kołmogorowa i problem trójkąta typu Heilbronna .


3

Równoważność pobierania próbek i wyszukiwania przez Scotta Aaronsona. Tutaj pokazuje równoważność problemu próbkowania i poszukiwania w teorii złożoności w odniesieniu do ważności rozszerzonej tezy Church-Turinga. Standardowa teoria informacji, algorytmiczna teoria informacji i złożoność Kołmogorowa są wykorzystywane w fundamentalny sposób.

Podkreśla:
Podkreślmy, że nie używamy złożoności Kołmogorowa jedynie jako wygody technicznej lub jako skrótu do liczenia argumentów. Raczej złożoność Kołmogorowa wydaje się niezbędna nawet do zdefiniowania problemu wyszukiwania.


0

To proste, a także przybliżenie: ile kombinacji 10 6 rzeczy z 10 9 , pozwalając na duplikaty? Prawidłowa formuła to

N = (10 6 + 10 9 )! / (10 6 ! 10 9 !) ~ = 2 11409189.141937481

Ale wyobraź sobie, że dajesz instrukcje, aby przejść wzdłuż rzędu miliarda wiader, zrzucając milion kulek do wiader po drodze. Będzie ~ 10 9 instrukcji „krok do następnego wiadra” i 10 6 instrukcji „upuść marmur”. Łączna informacja to

log 2 (N) ~ = -10 6 log 2 (10 6 / (10 6 + 10 9 )) - 10 9 log 2 (10 9 / (10 6 + 10 9 )) ~ = 11409200.432742426

co jest zabawnym, ale całkiem dobrym sposobem na przybliżenie liczby (dziennika). Podoba mi się, ponieważ działa, jeśli zapomnę, jak robić kombinatorykę. Jest to równoważne z powiedzeniem tego

(a + b)! / a! b! ~ = (a + b) (a + b) / a a b b

co jest jak użycie przybliżenia Stirlinga, anulowanie i pominięcie czegoś.


2
Może to być bardziej czytelne, jeśli wykonasz ogólne ograniczenie, a nie określone liczby. Myślę, że mówisz o aproksymacyjnym przybliżeniu objętości piłki Hamminga.
Sasho Nikolov

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.