Czy model P (Y | X) można wytrenować za pomocą stochastycznego spadku gradientu z nie-iidowych próbek P (X) i iidowych próbek P (Y

Podczas uczenia sparametryzowanego modelu (np. W celu zmaksymalizowania prawdopodobieństwa) za pomocą stochastycznego spadku gradientowego na niektórych zbiorach danych, powszechnie przyjmuje się, że próbki szkoleniowe są pobierane z rozkładu danych szkoleniowych. Jeśli więc celem jest modelowanie wspólnego rozkładu , to każda próbka treningowa powinna zostać pobrana z tego rozkładu. $P(X,Y)$ $(x_i,y_i)$

Jeśli celem jest zamiast tego modelowanie rozkładu warunkowego , to jak zmienia się wymaganie iid, jeśli w ogóle? $P(Y|X)$

Czy nadal musimy rysować każdą próbkę na podstawie wspólnego rozkładu? $(x_i,y_i)$
Czy powinniśmy narysować iid z , a następnie narysować iid z ? $x_i$ $P(X)$ $y_i$ $P(Y|X)$
Czy możemy narysować nie iid z (np. Skorelowane w czasie), a następnie narysować iid z ? $x_i$ $P(X)$ $y_i$ $P(Y|X)$

Czy możesz skomentować ważność tych trzech podejść do stochastycznego spadku gradientu? (Lub pomóż mi sformułować pytanie, jeśli to konieczne.)

Chciałbym zrobić # 3, jeśli to możliwe. Moja aplikacja jest w nauce wzmacniania, gdzie używam sparametryzowanego modelu warunkowego jako zasady kontroli. Sekwencja stanów jest silnie skorelowana, ale z akcji próbkuje się iid z polityki stochastycznej uwarunkowanej stanem. Otrzymane próbki (lub ich podzbiór) są używane do szkolenia zasad. (Innymi słowy, wyobraź sobie, że przez pewien czas prowadzisz strategię kontroli w pewnym środowisku, zbierając zestaw danych próbek stanu / akcji. Potem, mimo że stany są korelowane w czasie, akcje są generowane niezależnie, zależnie od stanu.) Jest to nieco podobne do sytuacji w tym dokumencie . $x_i$ $y_i$ $(x_i,y_i)$

Znalazłem artykuł Ryabko, 2006, „ Rozpoznawanie wzorca dla warunkowo niezależnych danych ”, który z początku wydawał się istotny; jednak tam sytuacja jest odwrócona od tego, czego potrzebuję, gdzie (etykieta / kategoria / akcja) może być narysowana nie z , a (obiekt / wzór / stan) jest narysowany z . $y_i$ $P(Y)$ $x_i$ $P(X|Y)$

Aktualizacja: Dwa artykuły ( tu i tutaj ) wymienione w artykule Ryabko wydają się tutaj istotne. Zakładają, że pochodzą z dowolnego procesu (np. Nie iid, być może niestacjonarny). Pokazują, że estymatory najbliższego sąsiada i jądra są w tym przypadku spójne. Ale bardziej interesuje mnie, czy oszacowanie oparte na stochastycznym spadku gradientu jest prawidłowe w tej sytuacji. $x_i$

— Tyler Streeter
źródło

Może czegoś mi brakuje i nie przeczytałem artykułu, ale: rysujesz non-iid z a następnie próbujesz iid z . Ryabko (2006) rysuje non-iid z a następnie pobiera próbki iid z . Wydaje się, że te same nazwy zmieniają się. Czy jest coś zasadniczo innego w obiektach i co sprawia, że nie jest to ta sama sytuacja?

x_{i}

$x_i$

P (X)

$P(X)$

y_{i}

$y_i$

P (Y ∣ X)

$P(Y \mid X)$

y_{i}

$y_i$

P (Y)

$P(Y)$

x_{i}

$x_i$

P (X ∣ Y)

$P(X \mid Y)$

x

$x$

y

$y$

— Dougal,

@Dougal: Różnica polega na tym, że modele rozkładu warunkowego, takie jak losowe pola warunkowe, traktują i („wejścia” i „wyjścia”) inaczej ... modelują tylko jeden kierunek ( ale nie ).

X

$X$

Y

$Y$

P (Y | X)

$P(Y|X)$

P (X | Y)

$P(X|Y)$

— Tyler Streeter,

W tej sprawie rozważyłbym następującą analogię. Załóżmy, że i to dwa skorelowane szeregi czasowe (korelacja w czasie). Chcielibyśmy znaleźć funkcję , która jest równoważna znalezieniu . Jeżeli , które jest resztkowe, to IID (stąd stacjonarne i nieskorelowane), wówczas procedura szacowania jest zbieżna bez uprzedzeń. Zasadniczo przetwarzanie szeregów czasowych w kolejności czasowej lub dowolnej kolejności losowej nie powinno mieć znaczenia w procedurze MLE, o ile prawdopodobieństwo warunkowe jest poprawnie określone, a reszty są IID.

Y_{i}

$Y_i$

X_{i}

$X_i$

Y_{i} = f (X_{i}; θ)

$Y_i = f(X_i;\theta)$

P (Y_{i} | X_{i}; θ)

$P(Y_i|X_i;\theta)$

P (Y_{i} | X_{i}; θ)

$P(Y_i|X_i;\theta)$

— Cagdas Ozgenc

Myślę, że możesz zrobić 2 lub 3. Jednak problem z 3 polega na tym, że dopuszczając dowolne rozkłady dla X, włączasz rozkłady, które miałyby wszystkie lub prawie całe skoncentrowane prawdopodobieństwo, to mały przedział w przestrzeni x. Zaszkodziłoby to ogólnemu oszacowaniu P (Y | X), ponieważ miałbyś mało danych lub brak danych dla niektórych wartości X.

— Michael R. Chernick
źródło

Czy mówisz, że przy podejściu nr 3 uzyskałbym obiektywny wynik przy potencjalnie dużej wariancji?

— Tyler Streeter,

Jeśli nie ma danych w punkcie lub w pobliżu punktu x , nie można nawet oszacować P (Y | X = x ), a jeśli jest tylko kilka punktów, wariancja oszacowania będzie duża.

_{1}

$_1$

_{1}

$_1$

— Michael R. Chernick,

Tak, to ma sens, że wariancja może być duża. Myślę, że moim głównym zmartwieniem jest to, czy oszacowane P (Y | X) będzie tendencyjne.

— Tyler Streeter,

Nie dyskutowaliśmy o oszacowaniu punktowym. Jeśli masz obiektywne szacunki dla P (X), P (Y) i P (X | Y) i podłącz je do wzoru P (Y | X) = P (X | Y) P (Y) / P (X) dostaniesz stronniczy szacunek.

— Michael R. Chernick

Powinienem podkreślić, że mówię o oszacowaniu P (Y | X) za pomocą stochastycznego spadku gradientu, w którym to przypadku kolejność próbek treningowych może wpływać na szybkość lub to, czy zbiega się z właściwym modelem. Nie używam tylko średnich próbek, gdzie kolejność próbek nie ma znaczenia.

— Tyler Streeter,

Czy model P (Y | X) można wytrenować za pomocą stochastycznego spadku gradientu z nie-iidowych próbek P (X) i iidowych próbek P (Y | X)?