Odnośniki uzasadniające użycie mieszanek gaussowskich


14

Modele mieszanin gaussowskich (GMM) są atrakcyjne, ponieważ są łatwe do pracy zarówno w analityce, jak i w praktyce, i są w stanie modelować niektóre egzotyczne rozkłady bez zbytniej złożoności. Istnieje kilka właściwości analitycznych, których należy się spodziewać, które nie są ogólnie jasne. W szczególności:

  • SnnPnP
    limninfP^SnD(P||P^)=0?
  • Powiedzmy, że mamy ciągły rozkład i znaleźliśmy mieszankę Gaussa N- składnik \ hat {P}, która jest zbliżona do P w całkowitej zmienności: \ delta (P, \ hat {P}) <\ varepsilon . Czy możemy związać D (P || \ hat {P}) w kategoriach \ epsilon ?PP P δ ( P , P ) < ε D ( P | | P ) εNP^Pδ(P,P^)<εD(P||P^)ϵ
  • Jeśli chcemy obserwować XPX przez niezależny szum addytywny YPY (zarówno rzeczywisty, ciągły), a mamy GMM X^QX,Y^QN gdzie δ(P,Q)<ϵ , więc ta wartość jest mała:
    |mmse(X|X+Y)mmse(X^|X^+Y^)|,
    tzn. Czy to prawda, że ​​oszacowanie szumu X do Y jest tak samo trudne, jak oszacowanie hałasu X^ poprzez Y^ ?
  • Czy można to zrobić w przypadku nieaddytywnych modeli hałasu, takich jak szum Poissona?

Mój (krótki) przegląd literatury do tej pory przedstawił bardzo dobrze zastosowane samouczki. Czy ktoś ma jakieś referencje, które rygorystycznie pokazują, w jakich warunkach jesteśmy uzasadnieni w stosowaniu modeli mieszanin?


3
Zbiór GMM jest gęsty w zestawie rozkładów w słabej topologii (odpowiadających zbieżności w rozkładzie); patrz np . tutaj . Nie jestem pewien, czy to Twoja pierwsza wypowiedź posiada, choć to z pewnością wymagać pozwalające zerowej wariancji składników w mieszaninie do czynienia z wszelkich mas punktowych w . Sceptycznie podchodzę również do drugiego punktu, ponownie z powodu kwestii mas punktowych. P
Dougal

1
Chodzi o to, że
podałem

1
Możesz mieć więcej szczęścia, przeglądając literaturę dotyczącą szacowania gęstości jądra za pomocą jąder Gaussa. Skoro masz mieszankę Gaussów z jedną na próbkę, a wraz ze wzrostem liczby próbek otrzymujesz asymptotycznie bezstronny i spójny estymator rozkładu? Myślę, że odpowiedź brzmi tak, ale nie mogę od razu znaleźć referencji.
Greg Ver Steeg

2
@enthdegree: Bardzo dobre pytanie. Ponieważ chcesz zastosować silne topologie (dywergencja KL i zmienność całkowita), ogólna odpowiedź na twoje pierwsze dwa punkty brzmi: nie, na przykład rozważ rozkład gruby; KL do dowolnej skończonej mieszanki gaussowskiej jest nieskończony (jestem pewien, że to działa, choć nie w 100%). Ale to prowadzi do o wiele bardziej interesującego pytania, do której podklasy rozkładów prawdopodobieństwa miałyby zastosowanie wszystkie twoje punkty kuli? Nie znam odpowiedzi, ale wydaje się niezwykle interesująca. Domyślam się, że to prawdopodobnie prawie wszystkie rozkłady prawdopodobieństwa.
Guillaume Dehaene

1
Brałem lekcje z tą książką. link Robi dobre podstawy w zakresie podstaw.
EngrStudent - Przywróć Monikę

Odpowiedzi:


0

W ekonometrii, gdzie kontekstem są rozkłady mieszanin współczynników w modelach logit, standardowe odniesienie to: MIESZANE MODELE MNL DLA DYSKRETNEJ ODPOWIEDZI DANIEL MCFADDEN I KENNETH TRAIN, DZIENNIK ZASTOSOWANEJ GOSPODARKI, J. Appl. Econ. 15: 447-470 (2000).


0

W odniesieniu do twoich pytań:

  1. W przypadku bardzo podobnego, bayesowskiego problemu mieszanki gaussowskiej w procesie Dirichleta, rozumiem, że odpowiedź brzmi tak. Ghosal (2013) .
  2. Kiedy uczestniczyłem w niektórych rozmowach na ten temat, wydawało mi się, że postępy osiągnięto głównie dzięki dywergencji KL. Zobacz slajdy Harry'ego van Zantena .
  3. Nie jestem jasny. Wygląda to jednak na problem separacji źródeł ( nieznane). Są to na ogół znacznie trudniejsze niż samo modelowanie mieszanin. W szczególności dla prostego przypadku nie stanie zidentyfikować prawdziwego iP N = P S = N ( 0 , 1 ) X YPN,PSPN=PS=N(0,1)XY ze względu na symetrię rozkładów około zera.
  4. Zobacz czwarty slajd połączony powyżej, znajduje się lista modeli bayesowskich, dla których obowiązuje gwarancja zbieżności.

0

Oto częściowa odpowiedź.

Powiedzmy, że jest klasą wszystkich mieszanin gaussowskich z składnikami. Czy w przypadku ciągłego rozkładu na realiach mamy gwarancję, że w miarę wzrostu możemy przybliżać za pomocą GMM z nieznaczną stratą w sensie względnej entropii? To znaczy, czy N P N P lim n inf PS n D ( P | | P ) = 0 ?SnnPnP

limninfP^SnD(P||P^)=0?

Nie można tylko mieć nadzieję, że KL rozbieżność jest niewielka, jeśli wiesz, że „s ogony są ostatecznie z tej samej kolejności co ” s. To ogólnie nie jest prawda. Nietrudno zauważyć, że dla Cauchy to dla dowolnego ,P P P N inf PS n R ( P | | P ) = D(PQ)QPPn

infP^SnD(P||P^)=

Aby to powiedzieć, potrzeba więcej warunków naP

Powiedzmy, że mamy ciągły rozkład i znaleźliśmy mieszankę Gaussa składnik która jest zbliżona do w całkowitej zmienności: . Czy możemy związać w kategoriach ?N P P δ ( P , P ) < ε D ( P | | P ) εPNP^Pδ(P,P^)<εD(P||P^)ϵ

Nie. Obowiązuje ten sam przykład powyżej.

Jeśli chcemy obserwować poprzez niezależny szum addytywny (zarówno rzeczywisty, ciągły), a mamy GMM gdzie , więc ta wartość jest mała: tzn. Czy to prawda, że ​​oszacowanie szumu do jest tak samo trudne, jak oszacowanie hałasu poprzez ?XPXYPYX^QX,Y^QYδ(P,Q)<ϵ

|mmse(X|X+Y)mmse(X^|X^+Y^)|,
XYX^Y^

Nie wiem Jeśli mają skończoną średnią i wariancję, wówczas MMSE to i (proste wyprowadzenie tutaj ). Przy tych założeniach celem jest ustalenie, czyjest mały, gdy jest mały. Związane z.X,Y,X^,Y^E[X|Y]E[X^|Y^]|EP[(EP[X|Y]X)2]EQ[(EQ[X|Y]X)2]|TV(P,Q)

Nie byłem w stanie tego udowodnić ani ogólnie, ani używając dodatkowej struktury addytywnej, którą założyliśmy na P, Q, ani nie wymyśliłem żadnych kontrprzykładów.

Czy można to zrobić w przypadku nieaddytywnych modeli hałasu, takich jak szum Poissona?

To jest dwuznaczne. W kontekście poprzedniego pytania, jeśli stwierdzenie w tej odpowiedzi można ogólnie udowodnić, wówczas odpowiedź brzmi „tak”.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.