Zrozumienie stratyfikacji krzyżowej


54

Jaka jest różnica między walidacją krzyżową a walidacją krzyżową ?

Wikipedia mówi:

W warstwowej walidacji krzyżowej k-krotnie fałdy są wybierane tak, aby średnia wartość odpowiedzi była w przybliżeniu równa we wszystkich fałdach. W przypadku klasyfikacji dychotomicznej oznacza to, że każda fałda zawiera w przybliżeniu te same proporcje dwóch rodzajów etykiet klas.

Ale wciąż jestem zdezorientowany.

  1. Co mean response valueznaczy w tym kontekście?
  2. Dlaczego numer 1 jest ważny?
  3. Jak osiągnąć numer 1 w praktyce?

Odpowiedzi:


43

Artykuł o krzyżowej walidacji w Encyklopedii systemów baz danych mówi:

Stratyfikacja to proces zmiany danych w celu zapewnienia, że ​​każda fałda jest dobrym reprezentantem całości. Na przykład w przypadku problemu klasyfikacji binarnej, w którym każda klasa zawiera 50% danych, najlepiej jest ułożyć dane tak, aby w każdym folderze każda klasa zawierała około połowy instancji.

Co do znaczenia stratyfikacji, Kohavi (badanie walidacji krzyżowej i bootstrap dla szacowania dokładności i wyboru modelu) stwierdza, że:

stratyfikacja jest ogólnie lepszym schematem, zarówno pod względem stronniczości, jak i wariancji, w porównaniu do regularnej weryfikacji krzyżowej.


5
Czy potrafisz intuicyjnie opisać, dlaczego jest lepsze niż zwykłe CV?
MohamedEzz

Może zawierać akapit, w którym można dążyć do różnych stopni rozwarstwienia, i że wpływają one w różnym stopniu na losowość fałd. Czasami wszystko, czego potrzebujesz, to upewnić się, że w każdej zakładce znajduje się co najmniej jeden rekord każdej klasy. Następnie możesz po prostu wygenerować fałdy losowo, sprawdzić, czy ten warunek jest spełniony i tylko w mało prawdopodobnym przypadku nie zostanie on przetasowany.
David Ernst,

37

Stratyfikacja ma na celu zagwarantowanie, że każda fałda jest reprezentatywna dla wszystkich warstw danych. Zasadniczo odbywa się to w nadzorowany sposób klasyfikacji i ma na celu zapewnienie (w przybliżeniu), że każda klasa jest (w przybliżeniu) równo reprezentowana w każdym folderze testowym (które są oczywiście łączone w komplementarny sposób w celu utworzenia foldów treningowych).

Intuicyja związana z tym polega na tendencyjności większości algorytmów klasyfikacji. Zwykle ważą każdą instancję jednakowo, co oznacza, że ​​nadmiernie reprezentowane klasy otrzymują zbyt dużą wagę (np. Optymalizacja miary F, dokładności lub uzupełniającej formy błędu). Stratyfikacja nie jest tak ważna dla algorytmu, który waży każdą klasę jednakowo (np. Optymalizując Kappa, Informację lub ROC AUC) lub zgodnie z macierzą kosztów (np. Która podaje wartość każdej klasie prawidłowo ważoną i / lub koszt dla każdego sposobu błędna klasyfikacja). Zobacz np. Moc DMW (2014), Czego nie mierzy miara F: cechy, wady, błędy i poprawki. http://arxiv.org/pdf/1503.06410

Jednym konkretnym problemem, który jest ważny nawet w przypadku algorytmów bezstronnych lub zrównoważonych, jest to, że zwykle nie są w stanie uczyć się ani testować klasy, która nie jest wcale reprezentowana w krotnie, a ponadto nawet w przypadku, gdy tylko jedna klasa jest reprezentowane w fold nie pozwala na generalizację do wykonania odpowiednio. ocenione. Jednak nawet to rozważanie nie jest uniwersalne i na przykład nie odnosi się tak bardzo do uczenia się w jednej klasie, który stara się ustalić, co jest normalne dla pojedynczej klasy, i skutecznie identyfikuje wartości odstające jako inną klasę, biorąc pod uwagę tę krzyżową walidację polega na określaniu statystyk, które nie generują określonego klasyfikatora.

Z drugiej strony nadzorowane rozwarstwienie zagraża technicznej czystości oceny, ponieważ etykiety danych testowych nie powinny wpływać na trening, ale w rozwarstwieniu są stosowane przy wyborze instancji treningowych. Możliwe jest również nieuwzględnione rozwarstwienie, polegające na rozpowszechnianiu podobnych danych wokół, patrząc tylko na atrybuty danych, a nie na prawdziwą klasę. Patrz np http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis EA Giakoumakis (1997), Nienadzorowany rozwarstwienie krzyżowej walidacji do oceny dokładności.

Stratyfikacja może być również zastosowana do regresji, a nie klasyfikacji, w którym to przypadku, podobnie jak w przypadku nienadzorowanego rozwarstwienia, stosuje się podobieństwo zamiast tożsamości, ale wersja nadzorowana używa znanej prawdziwej wartości funkcji.

Dalszymi komplikacjami są rzadkie klasy i klasyfikacja wielopłaszczyznowa, gdzie klasyfikacja odbywa się na wielu (niezależnych) wymiarach. Krotki prawdziwych etykiet we wszystkich wymiarach można traktować jak klasy do celów weryfikacji krzyżowej. Jednak niekoniecznie wszystkie kombinacje występują, a niektóre kombinacje mogą być rzadkie. Rzadkie klasy i rzadkie kombinacje stanowią problem, ponieważ klasa / kombinacja, która występuje co najmniej raz, ale krócej niż K razy (w K-CV), nie może być reprezentowana we wszystkich fałdach testowych. W takich przypadkach można zamiast tego rozważyć formę warstwowego boostrapowania (próbkowanie z wymianą w celu wygenerowania pełnowymiarowego krotnie treningowego z oczekiwanymi powtórzeniami i 36,8% oczekiwanym niewybranym do testowania, przy czym jedno wystąpienie każdej klasy jest początkowo wybrane bez zastępowania krotnie testowego) .

Innym podejściem do wielowarstwowego rozwarstwienia jest próba stratyfikacji lub załadowania każdego wymiaru klasowego osobno, bez dążenia do zapewnienia reprezentatywnego wyboru kombinacji. Z etykietami L i instancjami N oraz instancjami Kkl klasy k dla etykiety l możemy losowo wybrać (bez zamiany) z odpowiedniego zestawu instancji oznaczonych Dkl w przybliżeniu instancji N / LKkl. Nie zapewnia to optymalnej równowagi, ale raczej dąży do równowagi heurystycznie. Można to poprawić, blokując wybór etykiet przy lub powyżej limitu, chyba że nie ma wyboru (ponieważ niektóre kombinacje nie występują lub są rzadkie). Problemy zwykle oznaczają albo, że danych jest za mało, albo że wymiary nie są niezależne.


5

Średnia wartość odpowiedzi jest w przybliżeniu równa we wszystkich fałdach, to inny sposób na stwierdzenie, że udział każdej klasy we wszystkich fałdach jest w przybliżeniu równy.

Na przykład mamy zestaw danych z 80 rekordami klasy 0 i 20 rekordami klasy 1. Możemy uzyskać średnią wartość odpowiedzi (80 * 0 + 20 * 1) / 100 = 0,2 i chcemy, aby 0,2 była średnią wartością odpowiedzi wszystkich fałd. Jest to również szybki sposób w EDA na sprawdzenie, czy podany zestaw danych jest niezrównoważony zamiast zliczać.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.