Co to jest „Docelowe oczekiwane maksymalne prawdopodobieństwo”?

Próbuję zrozumieć niektóre artykuły Marka van der Laana. Jest teoretycznym statystykiem w Berkeley, pracującym nad problemami, które w znacznym stopniu pokrywają się z uczeniem maszynowym. Jednym z problemów dla mnie (poza głęboką matematyką) jest to, że często kończy się opisywaniem znanych metod uczenia maszynowego przy użyciu zupełnie innej terminologii. Jedną z jego głównych koncepcji jest „Docelowe oczekiwane maksymalne prawdopodobieństwo”.

TMLE służy do analizy ocenzurowanych danych obserwacyjnych z niekontrolowanego eksperymentu w sposób umożliwiający oszacowanie efektu nawet w obecności czynników zakłócających. Podejrzewam, że wiele takich samych pojęć istnieje pod innymi nazwami w innych dziedzinach, ale jeszcze nie rozumiem tego wystarczająco dobrze, aby dopasować je bezpośrednio do czegokolwiek.

Próba wypełnienia luki w „analizie danych obliczeniowych” jest tutaj:

Wkraczanie w erę nauki o danych: ukierunkowane uczenie się oraz integracja statystyki i analizy danych obliczeniowych

I wstęp dla statystyk jest tutaj:

Ukierunkowane wnioskowanie przyczynowe oparte na maksymalnym prawdopodobieństwie: część I

Od drugiego:

W tym artykule opracowaliśmy konkretny, ukierunkowany estymator maksymalnego prawdopodobieństwa przyczynowych skutków wielu interwencji w punkcie czasowym. Wymaga to zastosowania super-uczenia się opartego na stratach w celu uzyskania wstępnego oszacowania nieznanych czynników wzoru obliczeniowego G, a następnie zastosowania optymalnej funkcji fluktuacji specyficznej dla parametru docelowego (najmniej korzystnego podmodelu parametrycznego) do każdego oszacowanego czynnika, oszacowanie parametru (parametrów) fluktuacji z oszacowaniem maksymalnego prawdopodobieństwa i iteracja tego etapu aktualizacji współczynnika początkowego do zbieżności. Ten iteracyjny ukierunkowany krok aktualizacji maksymalnego prawdopodobieństwa sprawia, że wynikowy estymator efektu przyczynowego jest podwójnie solidny, w tym sensie, że jest spójny, jeśli albo początkowy estymator jest spójny, lub estymator optymalnej funkcji fluktuacji jest spójny. Optymalna funkcja fluktuacji jest poprawnie określona, jeśli rozkłady warunkowe węzłów na wykresie przyczynowym, na których interweniujemy, są poprawnie określone.

W swojej terminologii „super uczenie się” to uczenie się zespołowe z teoretycznie rozsądnym nieujemnym schematem ważenia. Ale co rozumie przez „zastosowanie funkcji optymalnej fluktuacji specyficznej dla parametru docelowego (najmniej korzystnego podmodelu parametrycznego) do każdego oszacowanego współczynnika”.

Lub dzieląc go na trzy odrębne pytania, czy TMLE ma analogiczne podejście do uczenia maszynowego, czym jest „najmniej korzystny submodel parametryczny” i czym jest „funkcja fluktuacji” w innych dziedzinach?

— Nathan Kurz
źródło

Jednym z powodów, dla których terminologia może być nieznana, jest to, że celem TMLE jest oszacowanie średniego efektu leczenia - wnioskowanie przyczynowe, a nie przewidywanie. Kiedy przeczytałem „super uczącego się” w artykułach na temat TMLE, pomyślałem, że autorzy zapożyczyli ten termin z pakietu SuperLearner w R do budowania modeli zespołów.

— RobertF

Zgadzam się, że van der Laan ma tendencję do wymyślania nowych nazw dla już istniejących pomysłów (np. Super-uczący się), ale o ile mi wiadomo TMLE nie jest jednym z nich. W rzeczywistości jest to bardzo sprytny pomysł i nie widziałem nic ze społeczności Machine Learning, która wyglądałaby podobnie (chociaż mogę być po prostu ignorantem). Pomysły pochodzą z teorii semiparametrycznie wydajnych równań estymacyjnych, które moim zdaniem statystycy myślą o wiele więcej niż ludzie ML.

$P_0$ $\Psi(P_0)$

\sum_{i} φ (Y_{i} ∣ θ) = 0,

$\sum_i \varphi(Y_i \mid \theta) = 0,$

$\theta = \theta(P)$ $P$ $\Psi$ $\varphi$ $E_{P} \varphi(Y \mid \theta) = 0$ $\theta$ $P_0$ $\Psi(P_0)$ jest asymptotycznie równoważny z tym, który rozwiązuje to równanie.(Uwaga: jestem nieco rozluźniony terminem „wydajny”, ponieważ opisuję tylko heurystykę) . Teoria takich równań szacunkowych jest dość elegancka, a książka ta stanowi kanoniczne odniesienie. Tutaj można znaleźć standardowe definicje „najmniej korzystnych podmodeli”; nie są to wymyślone przez van der Laana.

$P_0$ $P_0$ $\Psi(P_0)$ $P_0$ $\hat P$ $\Psi(\hat P)$ $\sqrt n$ $P_0$ $\Psi$

$\hat p$

{\hat{p}}_{1, ϵ} = \frac{\hat{p} \exp (ϵ φ (Y ∣ θ))}{\int \hat{p} \exp (ϵ φ (y ∣ θ)) d y}

$\hat p_{1, \epsilon} = \frac{\hat p \exp(\epsilon \ \varphi(Y \mid \theta))}{\int \hat p \exp(\epsilon \ \varphi(y \mid \theta)) \ dy}$

$\epsilon$ $\epsilon$ $\epsilon = 0$ $\hat p$ $\Psi$ $\epsilon \ne 0$ $\hat p_1$ $\hat p$

{\hat{p}}_{2, ϵ} \propto {\hat{p}}_{1, \hat{ϵ}} \exp (ϵ φ (Y ∣ θ) .

$\hat p_{2, \epsilon} \propto \hat p_{1, \hat \epsilon} \exp(\epsilon \ \varphi(Y \mid \theta).$

i tak dalej, dopóki nie znajdziemy czegoś w limicie, co spełnia efektywne równanie szacunkowe.

— chłopak
źródło

„Zgadzam się, że van der Laan ma tendencję do wymyślania nowych nazw dla już istniejących pomysłów” - Tak, zobacz to wprowadzenie do TMLE: biostats.bepress.com/ucbbiostat/paper252 , gdzie van der Laan używa „losowego zgrubienia ”, co oznacza wymienność i „założenie eksperymentalnego przypisania leczenia (ETA)” oznacza pozytywny wynik. :-) Nie jest to niczym niezwykłym w naszej dziedzinie. Badacze danych używają terminów takich jak wycofanie, precyzja i testy A / B, których nauczyłem się jako wrażliwość, pozytywna wartość predykcyjna i testowanie hipotez na studiach.

— RobertF

@RobertF CAR zawdzięcza Heitjanowi i Rubinowi i jest uogólnieniem MAR. Rubin wynalazł MAR, a także spopularyzował strukturę potencjalnych wyników, więc użycie CAR jako całości dla założeń typu ignorancja / wymienność wydaje mi się uczciwe.

— facet