Nie powołując się na źródła Wikipedia określa przekrój entropia dyskretnych rozkładów i Q sięPPPQQQ H×(P;Q)=−∑xp(x)logq(x).H×(P;Q)=−∑xp(x)logq(x).\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} Kto pierwszy zaczął używać tej ilości? A kto wynalazł ten termin? Zajrzałem do: JE Shore i RW Johnson, „Aksjomatyczne wyprowadzenie zasady maksymalnej entropii i zasady minimalnej entropii …
Grupuję rozkłady prawdopodobieństwa za pomocą algorytmu propagacji powinowactwa i planuję użyć dywergencji Jensena-Shannona jako miary odległości. Czy poprawne jest użycie samego JSD jako odległości lub kwadratu JSD? Dlaczego? Jakie różnice wynikałyby z wyboru jednego lub drugiego?
Pomyślałem, że koncepcja typowego zestawu jest dość intuicyjna: sekwencja długości należałaby do typowego zestawu jeśli prawdopodobieństwo wystąpienia sekwencji byłoby wysokie. Tak więc każda sekwencja, która prawdopodobnie byłaby w . (Unikam formalnej definicji związanej z entropią, ponieważ staram się ją zrozumieć jakościowo.)A ( n ) ϵ A ( n ) ϵnnnA(n)ϵAϵ(n)A_\epsilon …
To pytanie podaje ilościową definicję entropii krzyżowej pod względem jej wzoru. Szukam bardziej hipotetycznej definicji, wikipedia mówi: W teorii informacji entropia krzyżowa między dwoma rozkładami prawdopodobieństwa mierzy średnią liczbę bitów potrzebną do zidentyfikowania zdarzenia z zestawu możliwości, jeśli stosuje się schemat kodowania oparty na danym rozkładzie prawdopodobieństwa q, a nie …
Niedawno przeczytałem ten artykuł na temat entropii dyskretnego rozkładu prawdopodobieństwa. Opisuje ładny sposób myślenia o entropii jako oczekiwanej liczbie bitów (przynajmniej przy użyciu w definicji entropii) potrzebnej do zakodowania wiadomości, gdy kodowanie jest optymalne, biorąc pod uwagę rozkład prawdopodobieństwa użytych słów.log2)log2\log_2 Jednak w przypadku ciągłego przypadku, takiego jak tutaj, uważam, …
Patrząc na wektory własne macierzy kowariancji, otrzymujemy kierunki maksymalnej wariancji (pierwszy wektor własny to kierunek, w którym dane najbardziej się różnią itp.); nazywa się to analizą głównych składników (PCA). Zastanawiałem się, co to znaczy spojrzeć na wektory własne / wartości matrycy wzajemnej informacji, czy wskazywałyby one w kierunku maksymalnej entropii?
Dla arbitralnej ciągłej zmiennej losowej, powiedzmy , czy jej entropia różnicowa jest zawsze mniejsza niż ∞ ? (Jest ok, jeśli jest - ∞ .) Jeśli nie, jaki jest konieczny i wystarczający warunek, aby był mniejszy niż ∞ ?XXX∞∞\infty- ∞−∞-\infty∞∞\infty
Entropia ciągłego rozkładu z funkcją gęstości faff określa się jako ujemny z oczekiwaniem log( f) ,log(f),\log(f), a zatem jest równa H.fa= - ∫∞- ∞log( f( x ) ) f( x ) d x .Hf=−∫−∞∞log(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. Także, że każdej zmiennej losowej XXX , której rozkład jest gęstości faff …
Czy koszt entropii krzyżowej ma sens w kontekście regresji (w przeciwieństwie do klasyfikacji)? Jeśli tak, czy możesz podać przykład zabawki za pośrednictwem TensorFlow? Jeśli nie, dlaczego nie? Czytałem o entropii krzyżowej w sieciach neuronowych i głębokim uczeniu się Michaela Nielsena i wydaje się, że można to naturalnie wykorzystać do regresji …
Staram się omijać następujący dowód, że Gaussian ma maksymalną entropię. Jak ma sens krok oznaczony gwiazdką? Określona kowariancja naprawia tylko drugi moment. Co dzieje się z trzecią, czwartą, piątą chwilą itp.?
Pytanie to jest więc nieco związane, ale starałem się, aby było to jak najbardziej proste. Cel: Krótko mówiąc, istnieje pochodna negentropii, która nie obejmuje kumulantów wyższego rzędu, i próbuję zrozumieć, w jaki sposób została wyprowadzona. Tło: (Rozumiem to wszystko) Sam studiuję książkę „Independent Component Analysis” , którą znalazłem tutaj. (To …
Entropia różniczkowa RV Gaussa to . Zależy to od , który jest odchyleniem standardowym.σlog2)( σ2 πmi---√)log2(σ2πe)\log_2(\sigma \sqrt{2\pi e})σσ\sigma Jeśli znormalizujemy zmienną losową, aby miała wariancję jednostkową, jej entropia różnicowa spadnie. Dla mnie jest to sprzeczne z intuicją, ponieważ złożoność stałej normalizacyjnej Kołmogorowa powinna być bardzo mała w porównaniu ze zmniejszeniem …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Zaimplementowałem następującą funkcję do obliczania entropii: from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum Wynik: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # give …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.