Oszacuj entropię informacji za pomocą próbkowania Monte Carlo

10

Szukam metod, które pozwalają oszacować entropię informacji rozkładu, gdy jedynymi praktycznymi sposobami próbkowania z tego rozkładu są metody Monte Carlo.

Mój problem jest podobny do standardowego modelu Isinga, który jest zwykle używany jako wstępny przykład do próbkowania Metropolis-Hastings. Mam rozkład prawdopodobieństwa na zbiorze , tzn mam dla każdego . Elementy mają charakter kombinatoryczny, jak stany Isinga, i jest ich bardzo duża liczba. Oznacza to, że w praktyce nigdy nie otrzymuję tej samej próbki dwukrotnie podczas próbkowania z tej dystrybucji na komputerze. nie można obliczyć bezpośrednio (ze względu na brak znajomości współczynnika normalizacji), ale stosunek $A$ $p(a)$ $a \in A$ $a \in A$ $p(a)$ jest łatwy do obliczenia. $p(a_1)/p(a_2)$

Chcę oszacować entropię informacji tego rozkładu,

S. = - \sum_{za \in ZA} p (za) \ln p (za) .

$S = -\sum_{a \in A} p(a) \ln p(a).$

Alternatywnie chcę oszacować różnicę entropii między tym rozkładem a uzyskanym przez ograniczenie go do podzbioru (i oczywiście ponowną normalizację). $a\in A_1 \subset A$

monte-carlo random-sampling

— Charles Wells
źródło

3

Jeśli rozumiem, jakie informacje masz dostępne, to czego chcesz, nie jest możliwe: dostępne informacje nie są wystarczające do określenia entropii. Nie wystarczy nawet przybliżyć entropii.

Wygląda na to, mają sposób próbki z rozkładu , i mają sposób obliczyć współczynnik dla każdej pary elementów uzyskany przez próbkowanie, ale nie masz żadnych innych informacji. Jeśli tak, problemu nie da się rozwiązać. $p(\cdot)$ $p(a_1)/p(a_2)$ $a_1,a_2$

W szczególności możemy znaleźć parę dystrybucji, które mają różne entropie, ale których nie można rozróżnić na podstawie dostępnych informacji. Rozważ najpierw równomierny rozkład na (losowym) zestawie wielkości . Rozważ następnie równomierny rozkład na (losowym) zestawie wielkości . Mają one różne entropie (200 bitów vs 300 bitów). Biorąc jednak pod uwagę dostępne informacje, nie możesz wiedzieć, z którą z tych dwóch dystrybucji współpracujesz. W szczególności w obu przypadkach stosunek $2^{200}$ $2^{300}$ $p(a_1)/p(a_2)$ będzie zawsze wynosić dokładnie 1, więc stosunki nie pomogą ci rozróżnić dwóch rozkładów. A ze względu na paradoks urodzinowy możesz próbkować tyle, ile chcesz, ale nigdy nie uzyskasz tej samej wartości dwa razy (nie w ciągu swojego życia, z wyjątkiem wykładniczo małego prawdopodobieństwa), więc wartości, które otrzymujesz z próbkowania, będą wyglądały jak losowe punkty i nie zawierają żadnych przydatnych informacji.

Aby rozwiązać problem, musisz dowiedzieć się czegoś więcej. Na przykład, jeśli wiesz coś o strukturze rozkładu , może to umożliwić rozwiązanie twojego problemu. $p(\cdot)$

— DW
źródło

w rzeczywistości ma specjalną właściwość: jest podobna do Gibbsa, tj.

gdzie

jest „energią”

. Tyle że istnieje wiele wielkości „energii”, z których każda ma odpowiadającyparametr

.

p (a)

$p(a)$

p (a) \propto \exp (θ E (a))

$p(a) \propto \exp(\theta E(a))$

E

$E$

a

$a$

θ

$\theta$

— Charles Wells,

1

@CharlesWells, nie rozumiem, co rozumiesz przez „wiele ilości”. Wygląda na to, że warto opublikować osobno, jako osobne pytanie, w którym podajesz nam informacje o strukturze

. Może istnieje rozwiązanie tego szczególnego przypadku.

p (a)

$p(a)$

— DW

2

Dla drugiej części pytania (oszacowanie entropii różnicy pomiędzy dystrybucjami) może być w stanie korzystać z tożsamości gdzie jest średnia energia, jest temperaturą (jest proporcjonalna do in ), a jest entropią. Aby uzyskać szczegółowe informacje, patrz: Jaynes, E. (1957). Teoria informacji i mechanika statystyczna. Przegląd fizyczny, 106 (4), 620–630. http://doi.org/10.1103/PhysRev.106.620 .

fa = ⟨ mi ⟩ - T. S.,

$F = \langle E \rangle - T S,$

⟨ E ⟩

$\langle E \rangle$

T

$T$

θ

$\theta$

p \propto e^{θ E}

$p \propto \mathrm{e}^{\theta E}$

S

$S$

Pomysł wtedy byłoby zastosować jedną z metod dostępnych w literaturze obliczeniowa Fizyka statystyczna (patrz linki w pasku bocznym tej strony), aby znaleźć wolne energetyczne różnice , a następnie znaleźć jako funkcję i według powyższego wzoru (należy pamiętać, że można myśleć o ograniczeniu do podzbioru do za równoważne modyfikacji funkcji energii tak, że staje się nieskończona dopełnienia ). $\Delta F$ $\Delta S$ $\Delta F$ $\Delta \langle E \rangle$ $A_1$ $A$ $E$ $A_1$

Oto dwa dodatkowe odniesienia do algorytmów obliczania darmowej energii:

Lelièvre, T., Rousset, M., i Stoltz, G. (2010). Bezpłatne obliczenia energii. Imperial College Press. http://doi.org/10.1142/9781848162488

Chipot, C., i Pohorille, A. (2007). Obliczenia darmowej energii. (C. Chipot i A. Pohorille, red.) (Tom 86). Berlin, Heidelberg: Springer Berlin Heidelberg. http://doi.org/10.1007/978-3-540-38448-9

— Juan M. Bello-Rivas
źródło

Czy możesz podać bardziej praktyczne odniesienia do obliczania różnic w darmowej energii? Ta wiki nie posuwa się bardzo daleko

— Charles Wells,

Gotowy. Dodałem jeszcze dwa odniesienia i wskazałem linki na pasku bocznym wiki.

— Juan M. Bello-Rivas