Definicja i pochodzenie „entropii krzyżowej”

15

Nie powołując się na źródła Wikipedia określa przekrój entropia dyskretnych rozkładów i się $P$ $Q$

\begin{aligned} H^{\times} (P; Q) & = - \sum_{x} p (x) \log q (x) . \end{aligned}

$\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align}$

Kto pierwszy zaczął używać tej ilości? A kto wynalazł ten termin? Zajrzałem do:

JE Shore i RW Johnson, „Aksjomatyczne wyprowadzenie zasady maksymalnej entropii i zasady minimalnej entropii krzyżowej”, Teoria informacji, Transakcje IEEE, vol. 26, nr 1, s. 26–37, styczeń 1980 r.

Śledziłem ich wprowadzenie do

A. Wehrl, „Ogólne właściwości entropii”, Recenzje współczesnej fizyki, vol. 50, nr 2, s. 221–260, kwiecień 1978 r.

kto nigdy nie używa tego terminu.

Ani też nie

S. Kullback i R. Leibler, „O informacji i wystarczalności”, The Annals of Mathematical Statistics, vol. 22, nr 1, s. 79–86, 1951.

Zajrzałem do środka

TM Cover i JA Thomas, Elementy teorii informacji (seria Wiley w telekomunikacji i przetwarzaniu sygnałów). Wiley-Interscience, 2006.

i

I. Dobry, „Maksymalna entropia dla formułowania hipotez, szczególnie w wielowymiarowych tabelach kontyngencji”, The Annals of Mathematical Statistics, vol. 34, nr 3, s. 911–934, 1963.

ale oba artykuły definiują entropię krzyżową jako synonim rozbieżności KL.

Oryginalny papier

CE Shannon, „Matematyczna teoria komunikacji”, czasopismo techniczne systemu Bell, vol. 27, 1948 r.

Nie wspomina o entropii krzyżowej (i ma dziwną definicję „entropii względnej”: „Stosunek entropii źródła do maksymalnej wartości, jaką może mieć, gdy jest ograniczony do tych samych symboli”).

Wreszcie przejrzałem stare książki i dokumenty Tribusa.

Czy ktoś wie, jak nazywa się powyższe równanie i kto je wymyślił lub ma ładną prezentację?

information-theory entropy

— Neil G.
źródło

7

$I_{1:2}(E)$ $2.2-2.4$

EDYTOWAĆ:

Dodatkowe aliasy obejmują miarę informacji Kullbacka-Leiblera, miarę informacji względnej, entropię krzyżową, dywergencję I i niedokładność Kerridge .

— Itamar
źródło

Dzięki! Sprawdziłem te referencje, ale wciąż mam problem ze znalezieniem terminu „entropia krzyżowa” lub pasującego równania. Daj mi znać, jeśli widziałeś jeden z artykułów lub książek.

— Neil G,

1

Możesz także wyszukiwać wstecz w Google scholar artykuły z różnymi pseudonimami opublikowane do określonego roku (np. Entropia krzyżowa do 1980 ).

— Itamar,

1

Jeśli chodzi o twoją ostatnią edycję, interesuje mnie historia formy podanej w moim pytaniu. Zauważyłem już, że wczesne prace używają „entropii krzyżowej” w znaczeniu „dywergencji KL”. (Pamiętaj, że pytanie Kullbacka jest moim pytaniem).

— Neil G

Przepraszam, brakowało mi artykułu Kullback w pytaniu

— Itamar,

4

Dzięki sugestii @ Itamar znalazłem wzmiankę w:

IJ Good, „Some Terminology and Notation in Information Theory”, Proceedings of the IEE - Część C: Monografie, t. 103, nr 3, s. 200–204, marzec 1956 r.

Przydałaby mi się dobra prezentacja cross-entropii.

— Neil G.
źródło

2

Dzięki za to - dobre podsumowanie literatury przedmiotu. Artykuł Shore and Johnson z 1980 roku w IEEE to dobry początek, ale wskaźnik @ itamar do monografii Good z 1956 roku jest jeszcze lepszy. Koncepcja wydaje się wynikać z pracy Shannona, a notatka AMS Kullback & Leibler z 1951 r. Jest początkiem obecnego użycia tego terminu. W zakresie, w jakim pochodzenie terminu „entropia krzyżowa” odnosi się do sztucznych sieci neuronowych, istnieje termin używany w pracy w Science, przedłożonej w 1994 r., Opublikowanej w 1995 r. Przez GE Hinton, P. Dayan, BJ Frey & RM Neal, w: które jest wczesnym użyciem terminu „maszyna Hemholtza” - być może pierwsze. Adres URL do kopiowania: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf W artykule „Algorytm Wake-sleep dla nienadzorowanych sieci neuronowych”, uwaga przed równaniem nr 5 mówi: „Gdy istnieje wiele alternatywnych sposobów opisu wektora wejściowego, można zaprojektować schemat kodowania stochastycznego, który wykorzystuje entropia w alternatywnych opisach [1]. Koszt to wtedy: „(patrz artykuł dla równania # 5)„ Drugi termin jest wówczas entropią rozkładu, który wagi rozpoznania przypisują różnym alternatywnym przedstawieniom ”. W dalszej części artykułu eqn # 5 jest przepisany jako eqn # 8, a ostatni termin jest opisany jako rozbieżność Kullbacka-Leiblera między początkowym rozkładem prawdopodobieństwa a tylnym rozkładem prawdopodobieństwa. Artykuł stwierdza: „Tak więc dla dwóch modeli generatywnych, które przypisują równe prawdopodobieństwo do d, ) W tym dokumencie nadal opisuje się proces minimalizacji tego konkretnego algorytmu jako minimalizujący rozbieżność Kullbacka-Leiblera, ale wygląda na to, że termin „entropia w alternatywnych opisach” został skrócony do po prostu „entropii krzyżowej”. Aby zobaczyć numeryczny przykład entropii krzyżowej przy użyciu TensorFlow, zobacz zamieszczony tutaj post, pomocne: ) W tym dokumencie nadal opisuje się proces minimalizacji tego konkretnego algorytmu jako minimalizujący rozbieżność Kullbacka-Leiblera, ale wygląda na to, że termin „entropia w alternatywnych opisach” został skrócony do po prostu „entropii krzyżowej”. Aby zobaczyć numeryczny przykład entropii krzyżowej przy użyciu TensorFlow, zobacz zamieszczony tutaj post, pomocne: /programming/41990250/what-is-cross-entropy Zauważ, że rozwiązanie CE = 0,47965 wynika po prostu z naturalnego logu prawdopodobieństwa .619. W powyższym przykładzie użycie kodowania „jeden gorący” oznacza, że dwa pozostałe prawdopodobieństwa początkowe i tylne są ignorowane z powodu pomnożenia przez prawdopodobieństwo początkowe o wartości zerowej, w sumie dla entropii krzyżowej.

— gemesyscanada
źródło

+1 To może być prawda. Mówisz więc, że 1994 jest początkiem współczesnej definicji entropii krzyżowej?

— Neil G