Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem?
Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale co, jeśli robisz tradycyjną ekonomię, a wszystko, na czym ci zależy, to szacowanie ? Czy w tym kontekście przydatna może być również walidacja krzyżowa? Trudność konceptualna, z którą się zmagam, polega na tym, że możemy faktycznie obliczyć na danych testowych, ale nigdy nie możemy obliczyć ponieważ prawda z definicji nigdy nie jest przestrzegana. (Przyjmij, biorąc pod uwagę założenie, że istnieje nawet prawda , tzn. Że znamy rodzinę modeli, z których dane zostały wygenerowane).L ( Y , Y ) L ( β , β ) β β
Załóżmy, że Twoja strata to . Stawiasz czoła kompromisowi wariancji, prawda? Teoretycznie lepiej byłoby dokonać pewnej regulacji. Ale jak możesz wybrać parametr regularyzacji?
Byłbym szczęśliwy widząc prosty numeryczny przykład modelu regresji liniowej ze współczynnikami , w którym funkcją straty badacza jest np. , a nawet po prostu . Jak w praktyce można zastosować walidację krzyżową w celu poprawy oczekiwanej straty w tych przykładach?
Edycja : DJohnson wskazał mi https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , który jest istotny dla tego pytania. Piszą to autorzy
Techniki uczenia maszynowego ... zapewniają zdyscyplinowany sposób przewidywania który (i) korzysta z samych danych, aby zdecydować, w jaki sposób dokonać kompromisu wariancji odchylenia, oraz (ii) umożliwia wyszukiwanie w bardzo bogatym zestawie zmienne i formy funkcjonalne. Ale wszystko ma swoją cenę: należy zawsze pamiętać, że ponieważ są one dostrojone do , nie dają (bez wielu innych założeń) bardzo użytecznych gwarancji dla .
Kolejny istotny artykuł, ponownie dzięki DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Ten artykuł dotyczy powyższego pytania:
Podstawowym wyzwaniem w stosowaniu gotowych metod uczenia maszynowego, takich jak drzewa regresji do problemu wnioskowania przyczynowego, jest to, że podejścia regularyzacyjne oparte na krzyżowej walidacji zwykle polegają na przestrzeganiu „prawdziwej prawdy”, to znaczy rzeczywistych wyników w próbce walidacji krzyżowej. Jeśli jednak naszym celem jest zminimalizowanie średniego błędu kwadratu efektów leczenia, napotkamy coś, co [11] nazywa „podstawowym problemem wnioskowania przyczynowego”: efekt przyczynowy nie jest obserwowany dla żadnej pojedynczej jednostki, więc nie bezpośrednio mieć podstawową prawdę. Zajmujemy się tym, proponując podejścia do konstruowania obiektywnych szacunków błędu średniej kwadratowej skutku przyczynowego leczenia.