Wyprowadzanie negentropy. Utknąć


13

Pytanie to jest więc nieco związane, ale starałem się, aby było to jak najbardziej proste.

Cel: Krótko mówiąc, istnieje pochodna negentropii, która nie obejmuje kumulantów wyższego rzędu, i próbuję zrozumieć, w jaki sposób została wyprowadzona.

Tło: (Rozumiem to wszystko)

Sam studiuję książkę „Independent Component Analysis” , którą znalazłem tutaj. (To pytanie pochodzi z sekcji 5.6, w przypadku, gdy masz książkę - „Aproksymacja Entropii przez funkcje niepolarne”).

Mamy , która jest zmienną losową i której negentropy chcemy oszacować na podstawie niektórych naszych obserwacji. Plik PDF z jest podany przez . Negentropy to po prostu różnica między entropią różnicową znormalizowanej zmiennej losowej Gaussa a entropią różnicową . Różnicowa entropia jest tutaj podana przez , tak że:x p x ( ζ ) x wysxxpx(ζ)xH

H(x)=px(ζ)log(px(ζ))dζ

a więc negentropy podaje

J(x)=H(v)H(x)

gdzie jest znormalizowanym rv Gaussa, z PDF podanym przez .ϕ ( ζ )vϕ(ζ)

Teraz, w ramach tej nowej metody, moja książka uzyskała szacunkową wartość pliku PDF , podaną przez:x

px(ζ)=ϕ(ζ)[1+iciFi(ζ)]

(Gdzie . Dzięki temu to nie moc, ale indeks zamiast).ici=E{Fi(x)}i

Na razie „akceptuję” tę nową formułę PDF i zapytam o nią następnego dnia. To nie jest mój główny problem. Co robi teraz chociaż, to podłączyć tę wersję PDF powrotem do negentropia równania, a kończy się z:x

J(x)12iE{Fi(x)}2

Pamiętaj, że sigma (tutaj i przez resztę postu), po prostu pętle wokół indeksu . Na przykład, gdybyśmy mieli tylko dwie funkcje, sygnał zapętliby się dla i . Oczywiście powinienem powiedzieć o tych funkcjach, których używa. Najwyraźniej funkcje są zdefiniowane następująco:i = 2 i = 2 F iii=2i=2Fi

Funkcje nie są w tym przypadku funkcjami wielomianowymi. (Zakładamy, że rv jest średnią zerową i wariancji jednostkowej). Zróbmy teraz pewne ograniczenia i podajmy właściwości tych funkcji: xFix

Fn+1(ζ)=ζ,cn+1=0

Fn+2(ζ)=ζ2,cn+1=1

Aby uprościć obliczenia, przyjmijmy inne, czysto techniczne założenie: funkcje , tworzą układ ortonormalny jako taki:Fi,i=1,...n

ϕ(ζ)Fi(ζ)Fj(ζ)dζ={1,if i=j0,if ij

i

ϕ(ζ)Fi(ζ)ζkd(ζ)=0,for k=0,1,2

Prawie na miejscu! OK, więc to wszystko było tłem, a teraz pytanie. Zadanie polega zatem na umieszczeniu tego nowego pliku PDF w formule entropii różnicowej . Jeśli to zrozumiem, zrozumiem resztę. Teraz książka podaje pochodne (i zgadzam się z tym), ale utknąłem pod koniec, ponieważ nie wiem / nie widzę, jak to anuluje. Nie wiem też, jak interpretować zapis small-o z rozszerzenia Taylora.H(x)

Oto wynik:

Używając rozszerzenia Taylora , dla otrzymujemy:H(x)(1+ϵ)log(1+ϵ)=ϵ+ϵ22+o(ϵ2)H(x)

H(x)=ϕ(ζ)(1+ciFi(ζ))(log(1+ciFi(ζ)+log(ζ))d(ζ)=ϕ(ζ)log(ζ)ϕ(ζ)ciFi(ζ)log(ϕ(ζ))ϕ(ζ)[ciFi(ζ)+12(ciFi(ζ))2+o((ciFi(ζ))2)]

a więc

Pytanie: (Nie rozumiem tego)

H(x)=H(v)0012ci2+o((ci)2

Zatem mój problem: z wyjątkiem , nie rozumiem, w jaki sposób otrzymał ostatnie 4 warunki w ostatnim równaniu. (tzn. 0, 0 i ostatnie 2 warunki). Rozumiem wszystko wcześniej. Mówi, że wykorzystał relacje ortogonalności podane w powyższych właściwościach, ale nie wiem, jak to zrobić. (Nie rozumiem też tutaj małej notacji w sensie, w jaki sposób jest ona używana?)H(v)

DZIĘKI!!!!

EDYTOWAĆ:

Poszedłem dalej i dodałem zdjęcia z książki, którą czytam, w zasadzie mówi to, co powiedziałem powyżej, ale na wypadek, gdyby ktoś potrzebował dodatkowego kontekstu.

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

I tutaj, zaznaczony na czerwono, jest dokładnie ta część, która mnie dezorientuje. W jaki sposób wykorzystuje właściwości ortogonalności, aby uzyskać ostatnią część, w której wszystko się anuluje, i końcowe podsumowania z udziałem i podsumowanie z małą notacją?ci2


1
Podpowiedź : napisz wprost i użyj założeń autora, aby uzyskać zera dwóch środkowych terminów. Musi być kilka literówek, w tym w cytacie blokowym; np. pojawia się w niewłaściwym miejscu w podanej definicji ortonormalnej. logϕ(x)
kardynał

@cardinal Ok, poprawiłem literówkę, dziękuję. Biorąc to pod uwagę, nie jestem pewien, w jaki sposób dokonuje anulowania. Dodałem rzeczywiste obrazy btw, z samej książki.
Spacey,

2
Szczerze mówiąc, nie mam pojęcia, w jaki sposób i dlaczego migracja została przeniesiona z witryny matematycznej. W każdym razie cieszę się, że mam go tutaj, gdzie jest równie domowy. Włożyłeś dużo wysiłku w to pytanie. :-)
kardynał

2
@cardinal Bardzo mi się podoba usłyszeć, jak to mówisz. :-) Tak, mam nadzieję, że ta inwestycja w samokształcenie się kiedyś zwróci. ;-)
Spacey

2
Będzie, @Mohammad, będzie! ICA jest również bardzo interesującym tematem :-).
Néstor

Odpowiedzi:


9

Najpierw przypomnij sobie, że są stałymi (są to wartości oczekiwane, liczby!), Więc można je wyprowadzić poza całki (jeśli go nie widzisz, zauważ, że Jeśli notacja Ci przeszkadza, po prostu zmień przez na ).ci

ci=p0(ξ)Gi(ξ)dξ.
ξξci

>> Aby uzyskać warunki zerowe:

Przypomnij sobie, że . Jak sugeruje @cardinal, musisz jawnie napisać , co jest równe: Mając to pod ręką, należy zauważyć, że: gdzie Upuściłem stałe poza całkami.φ(ξ)=exp(ξ2/2)/2πlogφ(ξ)

logφ(ξ)=ξ2/2log2π.
ciφ(ξ)Gi(ξ)logφ(ξ)=12ciφ(ξ)Gi(ξ)ξ2log2πciφ(ξ)Gi(ξ),   (1)

Stąd zauważ, że w (5.39) podano, że wynosi dla . Całka pierwszego terminu po prawej stronie równania. ma tę postać (z ) i całkę również w drugim członie (z ). Musisz po prostu wykorzystać ten fakt na sumach i gotowe!φ(ξ)Fi(ξ)ξk0k=0,1,2(1)k=2k=0

>> Aby uzyskać warunki :ci2

Zauważ, że całka, którą należy uzyskać, aby uzyskać te warunki, to: Możemy użyć twierdzenia wielomianowego do rozszerzenia sumy do kwadratu. To daje nam: Jednak ponownie od (5.39) zauważ, że wszystkie warunki w tej sumie, które obejmują całki dla postaci wynoszą zero dla a jeden dla . nam wynik

φ(ξ)(i=1nciGi(ξ))2dξ.
φ(ξ)k1+k2+...kn=22!k1!k2!...kn!1tn(ctGt(ξ))ktdξ.
φ(ξ)Gi(ξ)Gj(ξ)dξ
iji=j
φ(ξ)(ciGi(ξ))2dξ=ci2.

>> Informacje notacjio(whatever)

Myślę, że jest to dość mylące dla autorów, ale pamiętam, że używają go tylko po to, aby oznaczać, że istnieją warunki porządku każdym razem, gdy wstawiają (tj. Tak jak duże -O notacja). Jednak, jak skomentował @Macro tę samą odpowiedź, istnieje różnica między notacją big-O a małą-O. Może powinieneś sam sprawdzić i sprawdzić, który z nich pasuje do problemu w tym artykule w Wikipedii .o ( cokolwiek )whatevero(whatever)

PS: Nawiasem mówiąc, to świetna książka. Artykuły autorów na ten temat są również bardzo dobre i należy je przeczytać, jeśli próbujesz zrozumieć i wdrożyć ICA.


1
(+1) Dobra odpowiedź. Jeśli sumy są nieskończone, musimy być bardziej ostrożni przy zamianie ich na całkę. Jeśli są skończone (jak sugeruje OP, ale nie przyjrzałem się obrazom z bliska), wszystko jest proste, jak pokazałeś. :-)
kardynał

O tak! Dziękuję Nestor, ale co z dwoma ostatnimi wynikami, to jest sumowaniem z i sumowaniem z częścią notacji small-o? ci2
Spacey

1
@cardinal: O tak! Są skończone (nie wiem, dlaczego napisałem je tam, gdzie są nieskończone ...). Zmieniłem to w odpowiedzi.
Néstor

@Mohammad, piszę na moje odpowiedzi na dwa pozostałe pytania ;-).
Néstor

1
@ Néstor, +1 do tej odpowiedzi, ale jeśli chodzi o: Twój ostatni komentarz, myślę, że istnieje różnica między notacją wielkiej i małej .
Makro
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.