Stosuje się AIC i BIC, np. W regresji stopniowej. W rzeczywistości są one częścią większej klasy „heurystyki”, która jest również używana. Na przykład DIC (Deviance Information Criterion) jest często używany do wyboru modelu bayesowskiego.
Są to jednak w zasadzie „heurystyki”. Chociaż można wykazać, że zarówno AIC, jak i BIC zbiegają się asymptotycznie w kierunku podejść do krzyżowej weryfikacji (myślę, że AIC dąży do pominięcia jednego CV, a BIC w kierunku innego podejścia, ale nie jestem pewien), są one znane odpowiednio niedostateczna i nadmierna kara. Tj. Za pomocą AIC często dostajesz model, który jest bardziej skomplikowany niż powinien, podczas gdy z BIC często dostajesz model, który jest zbyt uproszczony.
Ponieważ oba są związane z CV, CV jest często lepszym wyborem, który nie cierpi z powodu tych problemów.
Wreszcie pojawia się kwestia liczby parametrów wymaganych dla BIC i AIC. Dzięki aproksymatorom funkcji ogólnych (np. KNN) na wejściach o wartościach rzeczywistych można „ukryć” parametry, tj. Skonstruować liczbę rzeczywistą, która zawiera te same informacje, co dwie liczby rzeczywiste (pomyśl np. O przecinaniu cyfr). W takim przypadku jaka jest rzeczywista liczba parametrów? Z drugiej strony, w przypadku bardziej skomplikowanych modeli możesz mieć ograniczenia parametrów, powiedzmy, że możesz dopasować parametry tylko takie, że θ1>θ2 (patrz np. Tutaj ). Lub możesz nie mieć możliwości identyfikacji, w którym to przypadku wiele wartości parametrów faktycznie daje ten sam model. We wszystkich tych przypadkach samo zliczenie parametrów nie daje odpowiedniego oszacowania.
Ponieważ wiele współczesnych algorytmów uczenia maszynowego wykazuje te właściwości (tj. Uniwersalne przybliżenie, niejasna liczba parametrów, brak możliwości identyfikacji), AIC i BIC są mniej przydatne w tym modelu, niż mogą się wydawać na pierwszy rzut oka.
EDYCJA :
Kilka innych kwestii, które można wyjaśnić:
- Wydaje mi się, że błędem było rozważenie mapowania poprzez przeplatanie cyfr jako bijection między R→RN (patrz tutaj ). Jednak szczegóły, dlaczego nie jest to bijection, są nieco trudne do zrozumienia. Jednak tak naprawdę nie potrzebujemy bijectionu, aby ten pomysł zadziałał (wystarczy przypuszczenie).
- R→RN
- R→RNR→RN
- Ponieważ ani dowód Cantora nie jest konstruktywny (po prostu udowadnia istnienie bijekcji bez podania przykładu), ani krzywe wypełniające przestrzeń (ponieważ istnieją one jedynie jako granice konstruktywnych obiektów, a zatem same nie są konstruktywne), argument I wykonane jest tylko teoretycznym dowodem. Teoretycznie możemy po prostu dodawać parametry do modelu, aby zmniejszyć BIC poniżej dowolnej pożądanej wartości (w zestawie treningowym). Jednak w rzeczywistej implementacji modelu musimy aproksymować krzywą wypełniania przestrzeni, więc błąd aproksymacji może nam to uniemożliwić (faktycznie tego nie testowałem).
- Ponieważ wszystko to wymaga aksjomatu wyboru, dowód staje się nieważny, jeśli nie zaakceptujesz tego aksjomatu (chociaż większość matematyków to robi). Oznacza to, że w konstruktywnej matematyce może to nie być możliwe, ale nie wiem, jaką rolę odgrywa matematyka konstruktywna dla statystyki.
- NRN+1RNRNRN. Jest to jednak tylko nieformalny argument, nie znam żadnego formalnego traktowania tego pojęcia „złożoności”.