Próbuję zrozumieć niektóre artykuły Marka van der Laana. Jest teoretycznym statystykiem w Berkeley, pracującym nad problemami, które w znacznym stopniu pokrywają się z uczeniem maszynowym. Jednym z problemów dla mnie (poza głęboką matematyką) jest to, że często kończy się opisywaniem znanych metod uczenia maszynowego przy użyciu zupełnie innej terminologii. Jedną z jego głównych koncepcji jest „Docelowe oczekiwane maksymalne prawdopodobieństwo”.
TMLE służy do analizy ocenzurowanych danych obserwacyjnych z niekontrolowanego eksperymentu w sposób umożliwiający oszacowanie efektu nawet w obecności czynników zakłócających. Podejrzewam, że wiele takich samych pojęć istnieje pod innymi nazwami w innych dziedzinach, ale jeszcze nie rozumiem tego wystarczająco dobrze, aby dopasować je bezpośrednio do czegokolwiek.
Próba wypełnienia luki w „analizie danych obliczeniowych” jest tutaj:
I wstęp dla statystyk jest tutaj:
Ukierunkowane wnioskowanie przyczynowe oparte na maksymalnym prawdopodobieństwie: część I
Od drugiego:
W tym artykule opracowaliśmy konkretny, ukierunkowany estymator maksymalnego prawdopodobieństwa przyczynowych skutków wielu interwencji w punkcie czasowym. Wymaga to zastosowania super-uczenia się opartego na stratach w celu uzyskania wstępnego oszacowania nieznanych czynników wzoru obliczeniowego G, a następnie zastosowania optymalnej funkcji fluktuacji specyficznej dla parametru docelowego (najmniej korzystnego podmodelu parametrycznego) do każdego oszacowanego czynnika, oszacowanie parametru (parametrów) fluktuacji z oszacowaniem maksymalnego prawdopodobieństwa i iteracja tego etapu aktualizacji współczynnika początkowego do zbieżności. Ten iteracyjny ukierunkowany krok aktualizacji maksymalnego prawdopodobieństwa sprawia, że wynikowy estymator efektu przyczynowego jest podwójnie solidny, w tym sensie, że jest spójny, jeśli albo początkowy estymator jest spójny, lub estymator optymalnej funkcji fluktuacji jest spójny. Optymalna funkcja fluktuacji jest poprawnie określona, jeśli rozkłady warunkowe węzłów na wykresie przyczynowym, na których interweniujemy, są poprawnie określone.
W swojej terminologii „super uczenie się” to uczenie się zespołowe z teoretycznie rozsądnym nieujemnym schematem ważenia. Ale co rozumie przez „zastosowanie funkcji optymalnej fluktuacji specyficznej dla parametru docelowego (najmniej korzystnego podmodelu parametrycznego) do każdego oszacowanego współczynnika”.
Lub dzieląc go na trzy odrębne pytania, czy TMLE ma analogiczne podejście do uczenia maszynowego, czym jest „najmniej korzystny submodel parametryczny” i czym jest „funkcja fluktuacji” w innych dziedzinach?