TLDR:
Mój zestaw danych to dość małe (120) próbki. Czy podczas 10-krotnej weryfikacji krzyżowej powinienem:
Zbierać wyniki z każdego testu, połączyć je w wektor, a następnie obliczyć błąd na tym pełnym wektorze prognoz (120 próbek)?
Czy powinienem zamiast tego obliczyć błąd na wyjściach, które otrzymuję przy każdej fałdzie (z 12 próbkami na krotnie), a następnie uzyskać ostateczną ocenę błędu jako średnią z 10-krotności szacunków błędu?
Czy są jakieś prace naukowe, które dowodzą różnic między tymi technikami?
Tło: Potencjalny związek z wynikami makro / mikro w klasyfikacji wielu marek:
Myślę, że to pytanie może być związane z różnicą między średnimi mikro i makro, które są często używane w zadaniu klasyfikacji wielu marek (np. 5 etykiet).
W ustawieniach z wieloma etykietami, wyniki mikro-średnich oblicza się, tworząc zagregowaną tabelę zdarzeń z wartościami prawdziwie dodatnimi, fałszywie dodatnimi, prawdziwie ujemnymi, fałszywie ujemnymi dla wszystkich 5 prognoz klasyfikatora na 120 próbkach. Tę tabelę zdarzeń stosuje się następnie do obliczenia mikro-precyzji, mikro-przywołania i mikro-miary. Kiedy więc mamy 120 próbek i pięć klasyfikatorów, mikro miary są obliczane na podstawie 600 prognoz (120 próbek * 5 etykiet).
Korzystając z wariantu Makro , oblicza się miary (precyzja, przywołanie itp.) Niezależnie dla każdej etykiety, a na koniec pomiary te są uśredniane.
Pomysł na różnicę między szacunkami mikro a makro może zostać rozszerzony na to, co można zrobić w ustawieniu K-fold w problemie klasyfikacji binarnej. Dla 10-krotności możemy albo uśrednić ponad 10 wartości ( Miara makro ), albo połączyć 10 eksperymentów i obliczyć mikro miary.
Tło - przykład rozszerzony:
Poniższy przykład ilustruje pytanie. Powiedzmy, że mamy 12 próbek testowych i mamy 10 fałd:
- Krotnie 1 : TP = 4, FP = 0, TN = 8 Precyzja = 1,0
- Fold 2 : TP = 4, FP = 0, TN = 8 Precyzja = 1,0
- Krotnie 3 : TP = 4, FP = 0, TN = 8 Precyzja = 1,0
- Krotnie 4 : TP = 0, FP = 12, Precyzja = 0
- Fold 5 .. Fold 10 : Wszystkie mają ten sam TP = 0, FP = 12 i Precyzja = 0
gdzie użyłem następującej notacji:
TP = liczba prawdziwie pozytywnych, FP = # fałszywie pozytywnych, TN = liczba prawdziwie negatywnych
Wyniki są następujące:
- Średnia precyzja przy 10 fałdach = 3/10 = 0,3
- Precyzja konkatenacji prognoz 10-krotnych = TP / TP + FP = 12/12 + 84 = 0,125
Pamiętaj, że wartości 0,3 i 0,125 są bardzo różne !