Porównuję wydajność wielu algorytmów na wielu zestawach danych. Ponieważ te pomiary wydajności nie są normalnie dystrybuowane, wybrałem test Friedmana z Nemenyi post-hoc testem opartym na Demšar (2006) .
Następnie znalazłem inny artykuł, w którym oprócz sugerowania innych metod, takich jak test Quade z późniejszym testem post-hoc Shaffera, stosują test Nemenyi w inny sposób.
Jak poprawnie zastosować test post-hoc Nemenyi?
1. Korzystając ze statystyki zasięgu uczonego?
W pracy Demšara mówi się o odrzuceniu hipotezy zerowej (brak różnicy wydajności dwóch algorytmów), jeśli średnia różnica rang jest większa niż CD odległości krytycznej z
„gdzie wartości krytyczne qα oparte są na statystyce zasięgu z podziałem na studia podzielonej przez „
Po kilku kopaniach odkryłem, że te „wartości krytyczne” można wyszukać dla niektórych alf, na przykład w tabeli dla, dla nieskończonych stopni swobody (na dole każdej tabeli).
2. lub stosując rozkład normalny?
Właśnie wtedy, gdy pomyślałem, że wiem, co mam zrobić, znalazłem kolejny artykuł, który znów mnie zdezorientował, ponieważ używali tylko normalnego rozkładu. Demšar mówi podobnie na stronie 12:
Statystyki testowe dla porównania klas i-tych i j-tych za pomocą tych metod to
Wartość z służy do znalezienia odpowiedniego prawdopodobieństwa z tabeli rozkładu normalnego, która jest następnie porównywana z odpowiednim . Testy różnią się sposobem dostosowania wartości aby zrekompensować wiele porównań.
W tym akapicie mówił o porównaniu wszystkich algorytmów z algorytmem kontrolnym, ale uwaga „różni się sposobem, w jaki dostosowują się… w celu kompensacji wielu porównań” sugeruje, że powinno to dotyczyć również testu Nemenyi.
Logiczne wydaje mi się więc obliczenie wartości p na podstawie statystyki testu, który jest zwykle dystrybuowany, i popraw ten, dzieląc .
Daje to jednak zupełnie inne różnice rang, przy których można odrzucić hipotezę zerową. A teraz utknąłem i nie wiem, którą metodę zastosować. Opieram się mocno na tym, który używa rozkładu normalnego , ponieważ jest to dla mnie prostsze i bardziej logiczne. Nie muszę też szukać wartości w tabelach i nie jestem związany z pewnymi wartościami istotności.
Z drugiej strony nigdy nie pracowałem ze studencką statystyką zasięgu i nie rozumiem tego.