Czy stosując średnią k-krotną weryfikację uśredniasz wszystkie modele


13

Kiedy przeprowadzam walidację krzyżową k-fold, rozumiem, że uzyskujesz miary dokładności, wskazując wszystkie fałdy z wyjątkiem jednego w tym folderze i przewidując, a następnie powtórz ten proces razy. Następnie możesz uruchomić wskaźniki dokładności dla wszystkich swoich instancji (precyzja, przywołanie,% sklasyfikowane poprawnie), które powinny być takie same, jakbyś je obliczał za każdym razem, a następnie uśredniał wynik (popraw mnie, jeśli się mylę).k

Końcowy efekt, jaki chcesz, to ostateczny model.

Czy oceniasz uśrednione modele, aby uzyskać zestaw prognoz, aby otrzymać model, który ma metryki dokładności uzyskane powyższą metodą?k

Odpowiedzi:


15

Celem krotnej walidacji krzyżowej nie jest stworzenie modelu; jest to porównanie modeli.k

Wyniki eksperymentu weryfikacji krzyżowej mogą pokazać, że maszyny wektorów wsparcia przewyższają Naive Bayes na danych lub że parametry hiper klasyfikatora powinny być ustawione na c dla tego konkretnego zestawu danych. Uzbrojeni w tę wiedzę trenujesz klasyfikator „produkcyjny” ze WSZYSTKIM dostępnymi danymi i stosujesz go do swojego problemu.

W wielu przypadkach nie jest nawet jasne, w jaki sposób poszedłbyś w kierunku uśrednienia kilku modeli. Na przykład, jaka jest średnia z trzech drzew decyzyjnych lub klasyfikatorów najbliższego sąsiada?

Ważne jest, aby pamiętać, że wyniki weryfikacji krzyżowej są szacunkami, a nie gwarancjami, a te szacunki są ważniejsze, jeśli klasyfikator produkcji jest przeszkolony z podobną jakością (i ilością) danych. Dużo pracy poświęcono opracowaniu sposobów wykorzystania tych szacunków do wnioskowania; to znaczy, w statystycznie poprawny sposób, ta metoda A jest ogólnie lepsza od metody B w odniesieniu do tych danych.


2
Jakie jest dobre odniesienie do korzystania z szacunków k-krotnej weryfikacji krzyżowej do wnioskowania? Chciałbym przeczytać o tym, jeśli masz dobry udział.
tentaclenorm

1
Dobrym miejscem na początek może być iro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs/... ale istnieje wiele różnych podejść.
Matt Krause

1
jeszcze jedno do wyjaśnienia: kiedy trenujemy klasyfikator „produkcyjny” z wykorzystaniem wszystkich danych, jak rozumiemy, kiedy przestać?
Anton,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.