Dlaczego kryterium informacyjne Akaike nie jest częściej wykorzystywane w uczeniu maszynowym?

Właśnie natknąłem się na „kryterium informacyjne Akaike” i zauważyłem dużą ilość literatury na temat wyboru modelu (wydaje się, że istnieją również takie rzeczy jak BIC).

Dlaczego współczesne metody uczenia maszynowego nie wykorzystują kryteriów wyboru modeli BIC i AIC?

— Echo
źródło

ponieważ nikt nie oblicza prawdopodobieństwa?

— Aksakal

Co rozumiesz przez „współczesne metody uczenia maszynowego”? O ile korzystałem AIC i BIC są często używane.

— Ferdi,

Również dlaczego -1? Pamiętaj, że nie ma głupich pytań - każde pytanie próbuje rzucić światło na wszechświat

— echo

@echo: Nie przegłosowałem, ale myślę, że twoje pytanie zostałoby poprawione, gdybyś mógł zdobyć / poprzeć główne twierdzenie (że metody uczenia maszynowego korzystają z tych kryteriów wyboru modelu BIC i AIC)

— user603

@Aksakal Thanks. Myślę, że lepiej jest, jeśli pytania zbudowane wokół obszernego roszczenia mogłyby je uzyskać. Mam na myśli ogólną zasadę.

— user603

Stosuje się AIC i BIC, np. W regresji stopniowej. W rzeczywistości są one częścią większej klasy „heurystyki”, która jest również używana. Na przykład DIC (Deviance Information Criterion) jest często używany do wyboru modelu bayesowskiego.

Są to jednak w zasadzie „heurystyki”. Chociaż można wykazać, że zarówno AIC, jak i BIC zbiegają się asymptotycznie w kierunku podejść do krzyżowej weryfikacji (myślę, że AIC dąży do pominięcia jednego CV, a BIC w kierunku innego podejścia, ale nie jestem pewien), są one znane odpowiednio niedostateczna i nadmierna kara. Tj. Za pomocą AIC często dostajesz model, który jest bardziej skomplikowany niż powinien, podczas gdy z BIC często dostajesz model, który jest zbyt uproszczony.

Ponieważ oba są związane z CV, CV jest często lepszym wyborem, który nie cierpi z powodu tych problemów.

Wreszcie pojawia się kwestia liczby parametrów wymaganych dla BIC i AIC. Dzięki aproksymatorom funkcji ogólnych (np. KNN) na wejściach o wartościach rzeczywistych można „ukryć” parametry, tj. Skonstruować liczbę rzeczywistą, która zawiera te same informacje, co dwie liczby rzeczywiste (pomyśl np. O przecinaniu cyfr). W takim przypadku jaka jest rzeczywista liczba parametrów? Z drugiej strony, w przypadku bardziej skomplikowanych modeli możesz mieć ograniczenia parametrów, powiedzmy, że możesz dopasować parametry tylko takie, że $\theta_1 > \theta_2$ (patrz np. Tutaj ). Lub możesz nie mieć możliwości identyfikacji, w którym to przypadku wiele wartości parametrów faktycznie daje ten sam model. We wszystkich tych przypadkach samo zliczenie parametrów nie daje odpowiedniego oszacowania.

Ponieważ wiele współczesnych algorytmów uczenia maszynowego wykazuje te właściwości (tj. Uniwersalne przybliżenie, niejasna liczba parametrów, brak możliwości identyfikacji), AIC i BIC są mniej przydatne w tym modelu, niż mogą się wydawać na pierwszy rzut oka.

EDYCJA :

Kilka innych kwestii, które można wyjaśnić:

Wydaje mi się, że błędem było rozważenie mapowania poprzez przeplatanie cyfr jako bijection między $\mathbb{R}\rightarrow\mathbb{R}^N$ (patrz tutaj ). Jednak szczegóły, dlaczego nie jest to bijection, są nieco trudne do zrozumienia. Jednak tak naprawdę nie potrzebujemy bijectionu, aby ten pomysł zadziałał (wystarczy przypuszczenie).
$\mathbb{R}\rightarrow\mathbb{R}^N$
$\mathbb{R}\rightarrow\mathbb{R}^N$ $\mathbb{R}\rightarrow\mathbb{R}^N$
Ponieważ ani dowód Cantora nie jest konstruktywny (po prostu udowadnia istnienie bijekcji bez podania przykładu), ani krzywe wypełniające przestrzeń (ponieważ istnieją one jedynie jako granice konstruktywnych obiektów, a zatem same nie są konstruktywne), argument I wykonane jest tylko teoretycznym dowodem. Teoretycznie możemy po prostu dodawać parametry do modelu, aby zmniejszyć BIC poniżej dowolnej pożądanej wartości (w zestawie treningowym). Jednak w rzeczywistej implementacji modelu musimy aproksymować krzywą wypełniania przestrzeni, więc błąd aproksymacji może nam to uniemożliwić (faktycznie tego nie testowałem).
Ponieważ wszystko to wymaga aksjomatu wyboru, dowód staje się nieważny, jeśli nie zaakceptujesz tego aksjomatu (chociaż większość matematyków to robi). Oznacza to, że w konstruktywnej matematyce może to nie być możliwe, ale nie wiem, jaką rolę odgrywa matematyka konstruktywna dla statystyki.
$N$ $\mathbb{R}^{N+1}$ $\mathbb{R}^N$ $\mathbb{R}^N$ $\mathbb{R}^N$ . Jest to jednak tylko nieformalny argument, nie znam żadnego formalnego traktowania tego pojęcia „złożoności”.

— LiKao
źródło

Chcesz zagrać w ten post stats.stackexchange.com/questions/325129/… ? Od jakiegoś czasu nie miałem z tym szczęścia.

— Skander H.

@LiKao Czy możesz przytoczyć odniesienia do „technik” ukrywania parametrów, takich jak przypadek przecinania cyfr.

— horaceT

@horaceT Niestety nie znam żadnego papieru, który podaje ten przykład. W artykułach na temat MDL istnieje pojęcie „złożoności funkcjonalnej” (np. Lpl.psy.ohio-state.edu/documents/MNP.pdf patrz równoważnik 10). Często przykład składa się z ograniczonych parametrów (np. Researchgate.net/publication/… ). Lubię omawiać ten przykład podczas omawiania tego i pokazywać, że złożony pojedynczy parametr może uchwycić wiele prostych parametrów, ponieważ uważam, że jest bardziej intuicyjny.

— LiKao,

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$

N

$N$

f_{1, N}

$f_{1,N}$

N

$N$

N

$N$

1

$1$

@LiKao To „dość fascynujące. Pls referencje powiedział dowód „krzywych archiwizacji”. Widziałem, że ograniczone parametry mają „mniej” stopień swobody. Naiwnie, jeśli f (x, y) = 0, y jest tylko funkcją x; po prostu wstaw g (x) gdzie y jest. Nie możesz robić podobnych rzeczy przy ograniczonej optymalizacji.

— horaceT