Interwał prognoz na podstawie weryfikacji krzyżowej (CV)

W podręcznikach i wykładach na YouTubie wiele się nauczyłem o modelach iteracyjnych, takich jak zwiększanie, ale nigdy nie widziałem nic na temat określania przedziału prognoz.

Krzyżową walidację stosuje się w następujących przypadkach:

Wybór modelu : Wypróbuj różne modele i wybierz ten, który najlepiej pasuje. W przypadku wzmocnienia użyj CV, aby wybrać parametry strojenia.
Ocena modelu : Oszacuj wydajność wybranego modelu

Kilka parametrów jest ważnych przy ocenie modelu, jednym z nich jest oczekiwany błąd prognozowania. Krzyżowa walidacja zapewnia dobre oszacowanie błędu prognozy, jak również opisano w książce „Elementy statystycznego uczenia się”.

Ale w jaki sposób wykorzystujemy oczekiwany błąd prognozowania do zbudowania przedziału prognozowania?

A jeśli na przykład przewidujesz cenę domu, przedział prognozy będzie wyższy dla domu o wartości 500 000 EUR w porównaniu do domu o wartości 200 000 EUR. Jak szacujemy te przedziały prognozowania za pomocą walidacji krzyżowej?

cross-validation boosting prediction-interval

— Kasper
źródło

To krok w dobrym kierunku: blog.datadive.net/prediction-intervals-for-random-forests

— Kasper

Myślę, że to, czego szukasz, to przewidywania konformalne. Zobacz artykuł Shafera i Vovka jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf .

— Aleksiej Zajcew

Czy możesz wyjaśnić, dlaczego Twoim zdaniem przedział prognozy byłby „wyższy” dla domu o powierzchni 500 tys. W porównaniu z domem o wartości 200 tys.? Czy to funkcja liczby próbek? Czy możesz założyć, że próbki są pobierane z całkowitej dystrybucji?

— justanotherbrain

Po ponownym przeczytaniu tego pytania mogę dać ci następującą granicę:

Załóżmy, że próbki zostały narysowane iid, rozkład jest ustalony, a utrata jest ograniczona przez , a następnie z prawdopodobieństwem co najmniej , $B$ $1 - \delta$

mi [mi (h)] \leq \hat{mi} (h) + b \sqrt{\frac{\log \frac{1}{δ}}{2) m}}

$\mathbb{E}[\mathcal{E}(h)] \leq \hat{\mathcal{E}}(h) + B\sqrt{\frac{\log \frac{1}{\delta}}{2m}}$

gdzie to wielkość próbki, a to pewność. Granica trywialnie utrzymuje nierówność McDiarmida. $m$ $1-\delta$

$m$ to wielkość próbki, to błąd uogólnienia, a jest błędem testowym dla hipotezy. $\mathbb{E}[\mathcal{E}(h)]$ $\hat{\mathcal{E}}(h)$

Nie zgłaszaj tylko błędu weryfikacji krzyżowej ani błędu testu, ponieważ są one zasadniczo bez znaczenia, ponieważ są jedynie punktowymi szacunkami.

Stary post do zapisu:

Nie jestem pewien, czy w pełni zrozumiałem twoje pytanie, ale spróbuję to zrobić.

Po pierwsze, nie jestem pewien, jak zdefiniowałbyś przedział predykcji dla wyboru modelu, ponieważ, jak rozumiem, przedziały predykcji przyjmują pewne założenia dystrybucyjne. Zamiast tego można wyprowadzić nierówności koncentracji, które w pewnym stopniu wiążą zmienną losową ze względu na jej wariancję. Nierówności w koncentracji są wykorzystywane w uczeniu maszynowym, w tym w zaawansowanej teorii zwiększania. W tym przypadku chcesz powiązać błąd uogólnienia (błąd ogólnie, punkty, których nie widziałeś) przez błąd empiryczny (błąd w zestawie testowym) oraz pewien termin złożoności i termin odnoszący się do wariancji.

Teraz muszę rozwiać nieporozumienie na temat walidacji krzyżowej, które jest niezwykle powszechne. Weryfikacja krzyżowa da jedynie obiektywne oszacowanie oczekiwanego błędu modelu DLA STAŁEGO ROZMIARU PRÓBKI. Dowód na to działa tylko w przypadku protokołu „jeden wyłącz”. Jest to w rzeczywistości dość słaba, ponieważ nie daje żadnych informacji dotyczących wariancji. Z drugiej strony, walidacja krzyżowa zwróci model zbliżony do rozwiązania minimalizacji ryzyka strukturalnego, które jest teoretycznie najlepszym rozwiązaniem. Dowód można znaleźć w załączniku tutaj: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

Jak więc ustalić granicę uogólnienia? (Pamiętaj, że granica uogólnienia to w zasadzie interwał przewidywania dotyczący błędu uogólnienia dla konkretnego modelu). Cóż, te granice są specyficzne dla algorytmu. Niestety istnieje tylko jeden podręcznik, który wyznacza granice dla wszystkich powszechnie używanych algorytmów w uczeniu maszynowym (w tym do wzmacniania). Książka jest Foundations of Machine Learning (2012) Mohri, Rostamizadeh i Talwalkar. Slajdy wykładowe obejmujące materiał można znaleźć na stronie internetowej Mohri: http://www.cs.nyu.edu/~mohri/ml14/

Chociaż elementy uczenia statystycznego są ważną i nieco pomocną książką, nie są zbyt rygorystyczne i pomijają wiele bardzo ważnych szczegółów technicznych dotyczących algorytmów i całkowicie pomijają wszelkie granice uogólnień. Podstawy uczenia maszynowego to najbardziej kompleksowa książka do uczenia maszynowego (co ma sens, ponieważ została napisana przez jednych z najlepszych w tej dziedzinie). Podręcznik jest jednak zaawansowany, więc uważaj na szczegóły techniczne.

Uogólnienie dotyczące wzmocnienia można znaleźć (z dowodem) tutaj: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

Mam nadzieję, że są to wystarczające wskazówki, aby odpowiedzieć na twoje pytanie. Waham się przed udzieleniem pełnej odpowiedzi, ponieważ omówienie wszystkich niezbędnych szczegółów zajmie około 50 stron, nie mówiąc już o wstępnych dyskusjach ...

Powodzenia!

— justanotherbrain
źródło

Więc jeśli dobrze rozumiem, daje to górną granicę błędu uogólnienia dla dowolnego kwantyla w całym rozkładzie (w oparciu o pewne założenia). Nie rozumiem jednak zdania: „Nie zgłaszaj błędu weryfikacji krzyżowej ani błędu testu”. Czy masz na myśli, że te dwie miary są bezużyteczne, czy są po prostu bezużyteczne, aby spróbować znaleźć przedział przewidywania?

— LouisBBBB

@LouisBBBB Błąd CV i błąd testu są jak raportowanie średniej próbki. Zazwyczaj złą praktyką jest podawanie średniej próbki bez pewnego przedziału ufności, ponieważ za każdym razem, gdy przeprowadzam eksperyment, otrzymuję inny wynik. Powiedziałem, że bez znaczenia, ale może „bezużyteczne” jest lepsze… Można argumentować, że w oszacowaniu punktowym jest jakieś znaczenie (tj. Definicja). Jednak szacunki punktowe są na ogół „bezużyteczne” w tym sensie, że nie charakteryzują rozkładu błędów w „użyteczny sposób”. „Przydatne” w kontekście podejmowania decyzji.

— justanotherbrain

Myślę, że rozumiem co mówisz. Dlatego wolisz analizować rozkład błędów zamiast średniej. A jeśli wrócę do pytania, Kasper chciał oszacować przedziały prognozowania „na punkt”. Twoja odpowiedź była globalną górną granicą przedziału prognozy (lub czegoś bliskiego), prawda? Czy znasz sposób na uzyskanie lokalnej górnej granicy?

— LouisBBBB

Ach - dziękuję za wyjaśnienie. Myślę, że źle zrozumiałem pytanie @ Kasper i mam wiele pytań uzupełniających. Dzięki za zwrócenie na to uwagi, zrobię trochę kopania.

— justanotherbrain