Istnieje wiele sytuacji, w których możesz trenować kilka różnych klasyfikatorów lub użyć kilku różnych metod wyodrębniania cech. W literaturze autorzy często podają średni błąd klasyfikacji nad zestawem losowych podziałów danych (tj. Po podwójnie zagnieżdżonej walidacji krzyżowej), a czasem także podają wariancje błędu w stosunku do podziałów. Jednak samo to nie wystarczy, aby powiedzieć, że jeden klasyfikator jest znacznie lepszy od drugiego. Widziałem wiele różnych podejść do tego - stosując testy chi-kwadrat, test t, ANOVA z testami post-hoc itp.
Jaką metodę należy zastosować do ustalenia istotności statystycznej? U podstaw tego pytania leży: Jakie założenia powinniśmy przyjąć w odniesieniu do rozkładu wyników klasyfikacji?