Jedną ważną różnicą w zwykłym sposobie, w jaki stosuje się metody weryfikacji krzyżowej i metody „out-of-bootstrap”, jest to, że większość osób stosuje walidację krzyżową tylko raz (tj. Każdy przypadek jest testowany dokładnie raz), podczas gdy walidacja „poza bootstrap” jest wykonywana z dużą liczbą powtórzeń / iteracji. W takiej sytuacji weryfikacja krzyżowa podlega większej wariancji z powodu niestabilności modelu. Można tego jednak uniknąć, stosując np. Powtarzaną / powtarzaną krotną walidację krzyżową. Jeśli tak się stanie, przynajmniej w przypadku zestawów danych spektroskopowych, z którymi pracowałem, całkowity błąd obu schematów ponownego próbkowania wydaje się w praktyce taki sam.k
Odradza się jednoznaczną weryfikację krzyżową, ponieważ nie ma możliwości zmniejszenia wariancji typu niestabilności modelu, a istnieją pewne klasyfikatory i problemy, w których wykazuje ona ogromne pesymistyczne nastawienie.
.632 bootstrap wykonuje rozsądną robotę, o ile zmieszany błąd ponownego próbkowania nie jest zbyt optymistyczny. (Np. W przypadku danych, z którymi pracuję, bardzo szerokie macierze z wieloma zmiennymi, to nie działa zbyt dobrze, ponieważ modele są podatne na poważne przeregulowanie). Oznacza to również, że unikałbym używania bootstrapu .632 do porównywania modeli o różnym stopniu złożoności. Z .632+ bootstrap nie mam doświadczenia: jeśli wystąpi przeregulowanie i zostanie poprawnie wykryty, będzie równy pierwotnej szacunkowej wartości po bootstrapie, więc trzymam się zwykłego oob lub iteracji / powtarzanej krzyżowej weryfikacji moich danych.
Literatura:
- Kohavi, R .: Badanie krzyżowej walidacji i bootstrap do oceny dokładności i wyboru modeli Postępowanie w sprawie sztucznej inteligencji 14. Międzynarodowa Konferencja Wspólna, 20–25 sierpnia 1995 r., Montreal, Quebec, Kanada, 1995, 1137–1145.
(Klasyczny )
Dougherty i Braga-Neto mają wiele publikacji na ten temat , np
Dougherty, ER i in. : Wydajność estymatorów błędów dla klasyfikacji Bieżąca bioinformatyka, 2010, 5, 53-67
Beleites, C. i in. : Zmniejszenie wariancji w szacowaniu błędu klasyfikacji przy użyciu rzadkich zestawów danych Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Mamy porównanie przeprowadzania walidacji krzyżowej tylko raz lub powtarzania / powtarzania i porównujemy to z gotowym ładowaniem i .632 bootstrap również dla szczególnie szerokich danych z wieloma kolinearnościami.
Kim, J.-H .: Szacowanie wskaźnika błędu klasyfikacji: Powtarzana walidacja krzyżowa, powtarzane wstrzymanie i bootstrap, Statystyka obliczeniowa i analiza danych, 2009, 53, 3735 - 374 Stwierdza
również, że powtarzana / powtarzana krotna walidacja krzyżowa i out-of-bootstrap mają podobną wydajność (w przeciwieństwie do wykonywania krzyżowej weryfikacji tylko raz).k
Wybór danych:
dokładność (z której @FrankHarrell powie ci, że jest to zły wybór, ponieważ nie jest to właściwa reguła punktacji ) podlega dużej rozbieżności, ponieważ uważa każdy przypadek za całkowicie poprawny lub całkowicie niepoprawny, nawet jeśli klasyfikator przewidział np. tylko 60 % prawdopodobieństwa a posteriori przynależności do danej klasy. Właściwą zasadą punktacji jest np. Wynik Briera, który jest ściśle związany ze średnim kwadratowym błędem regresji.
Analogie średniego błędu kwadratowego są dostępne dla proporcji takich jak dokładność, czułość, swoistość, wartości predykcyjne: Beleites, C. i in. : Walidacja miękkich modeli klasyfikacji przy użyciu częściowego członkostwa w klasie: Rozszerzona koncepcja wrażliwości i spółka zastosowana do klasyfikacji tkanek gwiaździaka, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (strona podsumowująca zawierająca również link do przedruku)
Moim ostatecznym celem jest być w stanie z pewnym przekonaniem stwierdzić, że jedna metoda uczenia maszynowego jest lepsza od drugiej w przypadku określonego zestawu danych.
Użyj testu sparowanego, aby to ocenić. Aby porównać proporcje, spójrz na test McNemara.
Na odpowiedź na to wpłynie wybór metryki. Ponieważ miary błędu typu regresji nie mają etapu „hartowania” przy podejmowaniu decyzji dotyczących cięcia z progiem, często mają mniejszą wariancję niż ich odpowiedniki klasyfikacyjne. Miary takie jak dokładność, które są w zasadzie proporcjami, będą wymagały ogromnej liczby przypadków testowych, aby ustalić wyższość jednego klasyfikatora nad drugim.
Fleiss: „Metody statystyczne dla stawek i proporcji” podaje przykłady (i tabele) dla niesparowanego porównania proporcji. Aby dać ci wyobrażenie o tym, co mam na myśli przez „ogromne rozmiary próbek”, spójrz na obraz w mojej odpowiedzi na to drugie pytanie . Sparowane testy, takie jak McNemar, wymagają mniej przypadków testowych, ale IIRC nadal w najlepszym przypadku jest w połowie (?) Wielkości próbki potrzebnej do niesparowanego testu.
Aby scharakteryzować wydajność klasyfikatora (hartowane), zwykle potrzebujesz krzywej roboczej o co najmniej dwóch wartościach, takich jak ROC (czułość vs. specyficzność) lub tym podobne.
Rzadko stosuję ogólną dokładność lub AUC, ponieważ moje aplikacje zwykle mają ograniczenia, np. Że czułość jest ważniejsza niż specyficzność, lub pewne ograniczenia tych środków powinny zostać spełnione. Jeśli wybierzesz charakterystykę sumy „pojedynczej liczby”, upewnij się, że punkt pracy modeli, na które patrzysz, znajduje się w rozsądnym zakresie.
Aby uzyskać dokładność i inne miary wydajności podsumowujące wydajność dla kilku klas zgodnie z etykietami referencyjnymi, należy wziąć pod uwagę względną częstotliwość klas, które napotkasz w aplikacji - co niekoniecznie jest takie samo jak w twojej dane szkoleniowe lub testowe.
Provost, F. i in. : Sprawa przeciw szacunkowi dokładności przy porównywaniu algorytmów indukcyjnych w postępowaniu XV Międzynarodowej Konferencji na temat Uczenia Maszynowego, 1998
edycja: porównywanie wielu klasyfikatorów
Myślałem o tym problemie przez jakiś czas, ale nie znalazłem jeszcze rozwiązania (ani nie spotkałem nikogo, kto miałby rozwiązanie).
Oto co mam do tej pory:
Problem polega na tym, że bardzo szybko wpadasz w ogromną sytuację wielokrotnego porównywania.
Można jednak powiedzieć, że w przypadku aplikacji, które mam pod ręką, wiele porównań tak naprawdę nie pogarsza sytuacji, ponieważ rzadko mam wystarczającą liczbę przypadków testowych, aby pozwolić nawet na jedno porównanie ...
Myślę, że dostrajanie hiperparametrów modelu jest specjalistyczną wersją ogólnego problemu z porównywaniem modeli, który może być łatwiejszy do rozwiązania na początku. Istnieją jednak pogłoski, że jakość modeli zależy w dużej mierze od wiedzy specjalisty, który je buduje, być może nawet bardziej niż od wyboru typu modelu
Na razie zdecydowałem, że „optymalizacja jest źródłem wszelkiego zła”, i zamiast tego podchodzę do zupełnie innego podejścia:
decyduję w jak największym stopniu na podstawie wiedzy eksperckiej na temat problemu. To w rzeczywistości pozwala dość zawęzić pewne rzeczy, dzięki czemu często mogę uniknąć porównania modeli. Kiedy muszę porównywać modele, staram się być bardzo otwarty i jasny, przypominając ludziom o niepewności oszacowania wydajności i że szczególnie wielokrotne porównywanie modeli jest AFAIK nadal nierozwiązanym problemem.
Edycja 2: sparowane testy
Wśród modeli możesz dokonać porównań między dwoma różnymi modelami (co jest ogromną sytuacją wielokrotnego porównywania), nie wiem jak to zrobić poprawnie. Jednak sparowanen12)( n2)- n )testu odnosi się tylko do faktu, że ponieważ wszystkie modele są testowane z dokładnie tymi samymi przypadkami testowymi, z jednej strony można podzielić przypadki na przypadki „łatwe” i „trudne”, dla których wszystkie modele osiągają prawidłowy wynik (lub zła) prognoza. Nie pomagają w rozróżnieniu modeli. Z drugiej strony istnieją „interesujące” przypadki, które są przewidywane poprawnie przez niektóre, ale nie przez inne modele. Tylko te „interesujące” przypadki muszą być brane pod uwagę w celu oceny wyższości, ani „łatwe”, ani „trudne” przypadki nie pomagają w tym. (W ten sposób rozumiem ideę stojącą za testem McNemara).
W przypadku masowo wielokrotnego porównania modeli, sądzę, że jednym problemem jest to, że jeśli nie masz szczęścia, im więcej modeli porównasz, tym mniej przypadków będziesz w stanie wykluczyć z dalszych rozważań: nawet jeśli wszystkie modele są naprawdę równe ogólna wydajność staje się coraz mniej prawdopodobne, że przypadek zawsze kończy się prawidłowym (lub zawsze błędnym) przewidywaniem przez modeli.nn