W uczeniu statystycznym, w sposób dorozumiany lub jawny, zawsze zakłada się, że zestaw treningowy składa się z krotek wejściowych / odpowiedzi które są niezależne od tego samego rozkładu połączeń z
oraz związek, który próbujemy uchwycić za pomocą określonego algorytmu uczenia się. Matematycznie to założenie pisze:
Myślę, że wszyscy możemy się zgodzić, że to założenie rzadko jest spełniane w praktyce, patrz powiązane pytanie SE i mądre komentarze @Glen_b i @Luca.
Moje pytanie brzmi zatem:
Gdzie dokładnie założenie iid staje się krytyczne w praktyce?
[Kontekst]
Pytam o to, ponieważ mogę sobie wyobrazić wiele sytuacji, w których tak rygorystyczne założenie nie jest potrzebne do wyszkolenia określonego modelu (np. Metody regresji liniowej), lub przynajmniej jedna może obejść założenie iid i uzyskać solidne wyniki. W rzeczywistości wyniki zwykle pozostają takie same, raczej zmieniają się wnioski, które można wyciągnąć (np. Heteroskedastyczność i spójne korelacje estymatorów HAC w regresji liniowej: chodzi o ponowne użycie starych dobrych dobrych wag regresji OLS, ale dostosowanie zachowanie skończonej próby estymatora OLS w celu wyjaśnienia naruszenia założeń Gaussa-Markowa).
Domyślam się zatem, że założenie iid jest wymagane, aby nie być w stanie wyszkolić konkretnego algorytmu uczenia się, ale raczej zagwarantować, że techniki takie jak walidacja krzyżowa mogą rzeczywiście zostać wykorzystane do ustalenia wiarygodnej miary zdolności modelu do ogólnej uogólnienia , co jest jedyną rzeczą, która nas interesuje pod koniec dnia w nauce statystycznej, ponieważ pokazuje, że rzeczywiście możemy uczyć się na podstawie danych. Intuicyjnie rozumiem, że stosowanie weryfikacji krzyżowej na zależnych danych może być optymistycznie tendencyjne (jak pokazano / wyjaśniono w tym interesującym przykładzie ).
Dla mnie iid nie ma więc nic wspólnego ze szkoleniem konkretnego modelu, ale wszystko, co dotyczy jego uogólnienia . Wydaje się to zgadzać z artykułem, który znalazłem Huan Xu i in., Patrz „Solidność i możliwość uogólnienia dla próbek Markoviana” tutaj .
Czy zgodziłbyś się z tym?
[Przykład]
Jeśli to może pomóc w dyskusji, należy rozważyć problem przy użyciu algorytmu lasso wykonać inteligentnej selekcji wśród cech podanych N próbki szkoleniowe ( X í , y i ) z ∀ i = 1 , . . . , N X I = [ X I 1 , . . . , X i P ] Możemy ponadto założyć, że:
- Wejścia zależne tym samym prowadzi do naruszenia IID założeniu (na przykład dla każdej usługi j = 1 , . . , P obserwujemy N punkt szeregów czasowych, a więc wprowadzenie czasowego autokorelacja)
- Odpowiedzi warunkowe są niezależne.
- Mamy .
W jaki sposób naruszenie założeń iid może stanowić problem w takim przypadku, zakładając, że planujemy ustalić współczynnik karalności LASSO przy użyciu metody walidacji krzyżowej (na pełnym zbiorze danych) + użyć zagnieżdżonej weryfikacji krzyżowej, aby wyczuć błąd uogólnienia tej strategii uczenia się (możemy odłożyć dyskusję dotyczącą nieodłącznych zalet / wad LASSO na bok, chyba że jest to przydatne).