W jaki sposób zgłaszana jest macierz nieporozumień z K-krotnej walidacji krzyżowej?

Załóżmy, że wykonuję walidację krzyżową K-fold z K = 10 fałd. Dla każdej zakładki będzie jedna matryca pomieszania. Czy zgłaszając wyniki, powinienem obliczyć średnią macierz zamieszania, czy po prostu zsumować macierze zamieszania?

machine-learning cross-validation accuracy

— der
źródło

Jeśli testujesz wydajność modelu (tzn. Nie optymalizujesz parametrów), na ogół sumujesz macierze pomieszania. Pomyśl o tym w ten sposób, podzieliłeś swoje dane na 10 różnych foldów lub zestawów „testowych”. Trenujesz swój model na 9/10 zgięć, testujesz pierwsze zgięcie i otrzymujesz macierz dezorientacji. Ta macierz nieporozumień reprezentuje klasyfikację 1/10 danych. Powtórz analizę ponownie z następnym zestawem „testowym” i uzyskaj kolejną macierz nieporozumień reprezentującą kolejną 1/10 danych. Dodanie tej nowej macierzy pomyłek do pierwszej reprezentuje teraz 20% twoich danych. Kontynuujesz, dopóki nie uruchomisz wszystkich foldów, zsumujesz wszystkie macierze nieporozumień, a ostateczna macierz nieporozumień reprezentuje wydajność tego modelu dla wszystkich danych. Możesz uśrednić macierze pomieszania, ale tak naprawdę nie zapewnia to żadnych dodatkowych informacji z macierzy skumulowanej i może być stronniczy, jeśli twoje fałdy nie są tego samego rozmiaru.

Uwaga - zakłada to, że twoje dane nie są powtarzane. Nie jestem całkowicie pewien, czy byłoby inaczej w przypadku powtarzania próbkowania. Zaktualizuje się, jeśli się czegoś nauczę lub ktoś poleci metodę.

— cdeterman
źródło

Dziękuję cdeterman. Co z wyborem modelu (tj. Optymalizacją parametrów strojenia)?

— John M

@JohnM, następnie patrzysz na każdą zakładkę niezależnie, aby uzyskać wskazanie najlepszych parametrów dla pełnego modelu. Możesz zajrzeć do zagnieżdżonego cv, jeśli chcesz połączyć oba.

— cdeterman