Wpływ niestabilności na przewidywania różnych modeli zastępczych
Jednak jednym z założeń analizy dwumianowej jest takie samo prawdopodobieństwo sukcesu dla każdej próby i nie jestem pewien, czy można uznać, że metoda klasyfikacji „dobra” lub „zła” w walidacji krzyżowej ma takie samo prawdopodobieństwo sukcesu.
Cóż, zwykle ta równoważność jest założeniem, które jest również potrzebne, aby umożliwić połączenie wyników różnych modeli zastępczych.
W praktyce twoja intuicja, że to założenie może zostać naruszone, jest często prawdziwa. Ale możesz zmierzyć, czy tak jest. W tym miejscu uważam, że iteracja krzyżowej walidacji jest pomocna: stabilność prognoz dla tego samego przypadku przez różne modele zastępcze pozwala ocenić, czy modele są równoważne (prognozy stabilne), czy nie.
Oto schemat iteracji (czyli powtarzanej) krotnej walidacji krzyżowej:k
Klasy są czerwone i niebieskie. Koła po prawej symbolizują prognozy. W każdej iteracji każda próbka jest przewidywana dokładnie raz. Zwykle średnia średnia jest używana jako oszacowanie wydajności, domyślnie zakładając, że wydajność modeli zastępczych jest równa. Jeśli szukasz każdej próbki na podstawie prognoz wykonanych przez różne modele zastępcze (tj. W kolumnach), możesz zobaczyć, jak stabilne są prognozy dla tej próbki.I ⋅ k
Możesz także obliczyć wydajność dla każdej iteracji (blok 3 wierszy na rysunku). Wszelkie rozbieżności między nimi oznaczają, że założenie, że modele zastępcze są równoważne (względem siebie, a ponadto „wielki model” zbudowany na wszystkich przypadkach) nie jest spełnione. Ale to również mówi ci, ile masz niestabilności. W przypadku proporcji dwumianowej myślę, o ile prawdziwa wydajność jest taka sama (tj. Niezależnie od tego, czy zawsze te same przypadki są błędnie prognozowane lub czy ta sama liczba, ale różne przypadki są błędnie prognozowane). Nie wiem, czy można rozsądnie założyć konkretny rozkład wydajności modeli zastępczych. Ale myślę, że w każdym razie przewaga nad obecnie powszechnym zgłaszaniem błędów klasyfikacji, jeśli w ogóle zgłosisz tę niestabilność.kk modeli zastępczych zebrano już dla każdej z iteracji, wariancja niestabilności jest około razy większa niż zaobserwowana wariancja między iteracjami.k
Zwykle muszę pracować z mniej niż 120 niezależnymi przypadkami, więc na moich modelach wprowadziłem bardzo silną regularyzację. Jestem wtedy zazwyczaj w stanie wykazać, że wariancja jest niestabilność niż wielkość próby testu wariancji skończonych. (I myślę, że jest to uzasadnione dla modelowania, ponieważ ludzie są skłonni do wykrywania wzorców, a tym samym przyciągają do budowania zbyt skomplikowanych modeli, a tym samym do nadmiernego dopasowania).
Zazwyczaj zgłaszam percentyle obserwowanej wariancji niestabilności w ciągu iteracji (oraz , i ) oraz dwumianowe przedziały ufności w odniesieniu do średniej obserwowanej wydajności dla skończonej wielkości próbki testowej.n k i≪
nkja
Rysunek jest nowszą wersją rys. 5 w tym artykule: Beleites, C. i Salzer, R .: Ocena i poprawa stabilności modeli chemometrycznych w sytuacjach o małej wielkości próby, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Zauważ, że kiedy pisaliśmy ten artykuł, nie do końca zdałem sobie sprawę z różnych źródeł wariancji, które tu wyjaśniłem - pamiętaj o tym. Dlatego uważam, że argumentacjapodana efektywna ocena wielkości próby jest nieprawidłowa, mimo że wniosek, że różne typy tkanek w obrębie każdego pacjenta dostarczają tyle samo ogólnych informacji, co nowy pacjent z danym typem tkanki jest prawdopodobnie nadal aktualny (mam zupełnie inny typ dowód, który również wskazuje w ten sposób). Jednak nie jestem jeszcze całkowicie tego pewien (ani tego, jak to zrobić lepiej, a tym samym móc sprawdzić), a ten problem nie ma związku z twoim pytaniem.
Jakiej wydajności użyć w dwumianowym przedziale ufności?
Do tej pory korzystałem ze średniej obserwowanej wydajności. Można również użyć najgorszej zaobserwowanej wydajności: im bliższa jest obserwowanej wydajności do 0,5, tym większa jest wariancja, a tym samym przedział ufności. Tak więc przedziały ufności obserwowanej wydajności najbliższe 0,5 dają pewien konserwatywny „margines bezpieczeństwa”.
Zauważ, że niektóre metody obliczania dwumianowych przedziałów ufności działają również, jeśli zaobserwowana liczba sukcesów nie jest liczbą całkowitą. Używam „integracji prawdopodobieństwa Bayesa a posteriori”, jak opisano w
Ross, TD: Dokładne przedziały ufności dla proporcji dwumianowej i estymacji Poissona, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Nie wiem dla Matlaba, ale w R możesz używać binom::binom.bayes
z obydwoma parametrami kształtu ustawionymi na 1).
Te myśli dotyczą modeli predykcyjnych zbudowanych na podstawie tego zbioru danych treningowych dla nieznanych nowych przypadków. Jeśli chcesz wygenerować dane do innych zestawów danych treningowych pochodzących z tej samej populacji przypadków, musisz oszacować, ile modeli wyszkolonych na nowych próbach treningowych o wielkości różni się. (Nie mam pojęcia, jak to zrobić inaczej niż poprzez uzyskanie „fizycznych” nowych zestawów danych treningowych)n
Zobacz także: Bengio, Y. i Grandvalet, Y .: Brak bezstronnego szacownika wariancji krzyżowej weryfikacji K-Fold, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Myślenie o tych rzeczach znajduje się na mojej liście badań ..., ale ponieważ pochodzę z nauki eksperymentalnej, lubię uzupełniać wnioski teoretyczne i symulacyjne danymi eksperymentalnymi - co jest tutaj trudne, ponieważ potrzebowałbym dużej zestaw niezależnych przypadków do testowania referencyjnego)
Aktualizacja: czy uzasadnione jest przyjęcie rozkładu biometrycznego?
Widzę k-fold CV podobny do następującego eksperymentu polegającego na rzucaniu monetą : zamiast rzucać jedną monetą wiele razy, monet wyprodukowanych przez tę samą maszynę rzuca się mniejszą liczbę razy. Na tym zdjęciu myślę, że @Tal wskazuje, że monety nie są takie same. Co oczywiście jest prawdą. Myślę, że to, co należy i co można zrobić, zależy od założenia równoważności dla modeli zastępczych.k
Jeśli faktycznie występuje różnica w wydajności między modelami zastępczymi (monetami), nie ma „tradycyjnego” założenia, że modele zastępcze są równoważne. W takim przypadku nie tylko rozkład nie jest dwumianowy (jak powiedziałem powyżej, nie mam pojęcia, jakiego rozkładu użyć: powinna to być suma dwumianów dla każdego modelu zastępczego / każdej monety). Należy jednak pamiętać, że oznacza to, że łączenie wyników modeli zastępczych nie jest dozwolone. Tak więc dwumianowy dla testów nie jest dobrym przybliżeniem (staram się poprawić przybliżenie, mówiąc, że mamy dodatkowe źródło zmienności: niestabilność), ani też średniej wydajności nie można użyć jako oszacowania punktowego bez dalszego uzasadnienia.n
Jeśli z drugiej strony (prawdziwe) działanie surogatu jest takie samo, to znaczy, że mam na myśli „modele są równoważne” (jednym z symptomów jest to, że prognozy są stabilne). Myślę, że w tym przypadku wyniki wszystkich modeli zastępczych można połączyć, a zastosowanie dwumianowego rozkładu dla wszystkich testów powinno być OK: Myślę, że w takim przypadku uzasadnione jest przybliżenie prawdziwych wartości modeli zastępczych, aby były równe , a zatem opisz test jako równoważny rzuceniu jedną monetą razy.p nnpn