Z wyjątkiem drzew decyzyjnych i regresji logistycznej, jakie inne modele klasyfikacji zapewniają dobrą interpretację? Nie interesuje mnie dokładność ani inne parametry, ważna jest tylko interpretacja wyników.
Z wyjątkiem drzew decyzyjnych i regresji logistycznej, jakie inne modele klasyfikacji zapewniają dobrą interpretację? Nie interesuje mnie dokładność ani inne parametry, ważna jest tylko interpretacja wyników.
Odpowiedzi:
1) Argumentowałbym, że drzewa decyzyjne nie są tak interpretowalne, jak to robią ludzie. Oni wyglądają interpretacji, ponieważ każdy węzeł jest prosta decyzja binarny. Problem polega na tym, że gdy schodzisz w dół drzewa, każdy węzeł jest zależny od każdego węzła powyżej. Jeśli twoje drzewo ma tylko cztery lub pięć poziomów głębokości, nadal nie jest zbyt trudno przekonwertować ścieżkę jednego terminala (cztery lub pięć podziałów) na coś, co można zinterpretować (np. „Ten węzeł odzwierciedla długoterminowych klientów, którzy są mężczyznami o wysokich dochodach z wieloma kontami ”), ale próba śledzenia wielu węzłów końcowych jest trudna.
Jeśli wszystko, co musisz zrobić, to przekonać klienta, że Twój model jest interpretowalny („spójrz, w każdym kręgu jest prosta decyzja tak / nie, łatwa do zrozumienia, nie?”), To zachowałbym drzewa decyzji na twojej liście . Jeśli chcesz interpretowalności możliwej do zastosowania, sugeruję, że mogą nie zrobić cięcia.
2) Inną kwestią jest wyjaśnienie, co rozumiesz przez „interpretowalność wyników”. Natrafiłem na interpretację w czterech kontekstach:
Klient jest w stanie zrozumieć metodologię. (Nie o to pytasz.) Losowy las można dość łatwo wytłumaczyć przez analogię, a większość klientów czuje się z nim swobodnie, gdy zostanie wyjaśnione w prosty sposób.
Wyjaśnienie, w jaki sposób metodologia pasuje do modelu. (Miałem klienta, który nalegał, abym wyjaśnił, w jaki sposób dopasowuje się drzewo decyzyjne, ponieważ uważali, że pomogłoby to im zrozumieć, w jaki sposób lepiej wykorzystać wyniki. Po tym, jak napisałem bardzo fajną recenzję z mnóstwem ładnych diagramów, porzucili temat. Interpretacja / zrozumienie wcale nie jest pomocne.) Ponownie uważam, że nie o to pytasz.
Po dopasowaniu modelu interpretacja tego, co model „wierzy” lub „mówi” o predyktorach. Tutaj drzewo decyzyjne wygląda na interpretowalne, ale jest znacznie bardziej złożone niż pierwsze wrażenia. Regresja logistyczna jest tutaj dość prosta.
Gdy dany punkt danych jest klasyfikowany, wyjaśniając, dlaczego podjęto tę decyzję. Dlaczego regresja logistyczna mówi, że jest to 80% szansa na oszustwo? Dlaczego twoje drzewo decyzyjne mówi, że jest ono niskiego ryzyka? Jeśli klient jest zadowolony z drukowania węzłów decyzyjnych prowadzących do węzła końcowego, drzewo decyzyjne jest łatwe. Jeśli „dlaczego” trzeba streścić w mowie ludzkiej („ta osoba jest oceniana na niskie ryzyko, ponieważ jest długoterminowym klientem płci męskiej, który ma wysokie dochody i wiele kont w naszej firmie”), jest to o wiele trudniejsze.
Tak więc na jednym poziomie interpretowalności lub wyjaśnialności (nr 1 z odrobiną nr 4 powyżej), K-Nearest Neighbor jest łatwe: „ten klient został uznany za wysokiego ryzyka, ponieważ 8 na 10 klientów, którzy byli wcześniej oceniani i byli najbardziej podobne do nich pod względem X, Y i Z okazały się być wysokim ryzykiem. ” Na pełnym poziomie # 4 możliwym do działania, nie jest to tak interpretowalne. (Myślałem o przedstawieniu im pozostałych 8 klientów, ale wymagałoby to od nich dokładnego zbadania tych klientów, aby ręcznie ustalić, co ci klienci mają ze sobą wspólnego, a tym samym, co oceniany klient ma z nimi wspólnego).
Niedawno przeczytałem kilka artykułów na temat korzystania z metod podobnych do analizy wrażliwości, aby spróbować znaleźć automatyczne wyjaśnienia typu # 4. Nie mam jednak pod ręką. Być może ktoś może wrzucić linki do komentarzy?
To zależy od używanych danych. Jeśli nie interesuje Cię dokładność, uważam, że wizualizacja danych i klasyfikacje są jednym z najlepszych sposobów interpretacji danych i wydajności algorytmu.
Oto przykładowe porównanie różnych klasyfikatorów. Każdy wiersz to inny zestaw danych, a dane mają różną separowalność. Każda kolumna jest wizualizacją każdego klasyfikatora.
http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html
Analiza dyskryminacyjna to oryginalny model klasyfikacji, którego historia sięga ponad stu lat z RA Fisher ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ). Jest to zbyt często ignorowane w dzisiejszym świecie modeli uczenia maszynowego i statystycznego, które zostały zastąpione przez podejścia bardziej spójne z najnowszym żargonem.
Ten artykuł był w czasopiśmie Journal of Machine Learning i zawiera listę pralni innych metod: Czy potrzebujemy setek klasyfikatorów, aby rozwiązać rzeczywiste problemy z klasyfikacją? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
Aby znaleźć związek między funkcjami i klasami, możesz użyć metod relacji. Możesz także zastosować metodę chi-kwadrat, aby sprawdzić, czy dana funkcja jest powiązana z klasą. Aby to zrobić, należy użyć równości etykiety klasy. Na przykład, jeśli testujesz cechę 1 i klasę 1, powinieneś wykonać binowanie dla cechy 1 i obliczyć chi ^ 2 między prawdopodobieństwami podzielonymi a zmienną członkostwa, która ma wartość 1, gdy klasa wynosi 1, w przeciwnym razie. W ten sposób, jeśli bycie klasą 1 zależy od cechy 1, niektóre pojemniki będą miały wyższą stawkę bycia klasą 1, podczas gdy niektóre pojemniki będą miały niższe.
Dodatkową metodą, którą wypróbowałem z umiarkowanym sukcesem, było dopasowanie funkcji klasy do normalnego rozkładu. Następnie dla każdej próbki w klasie popraw wynik funkcji przez przydatność próbki do rozkładu. Za każdą próbkę spoza klasy należy ukarać funkcję fitness. Oczywiście należy znormalizować liczbę próbek, które są w klasie, a nie w klasie. Działa to tylko w przypadku funkcji, które są dystrybuowane blisko normalnej dystrybucji. Użyłem tej metody, aby przypisać ocenę za funkcję dla każdej klasy.
Nikt nie wspomniał o klasyfikacji najbliższego sąsiada. To jest bardzo proste do wyjaśnienia; obserwacja jest klasyfikowana według najczęstszej klasy spośród obserwacji najbliższych. Zwykle wybieramy nieparzystą liczbę najbliższych sąsiadów do obejrzenia, więc nie ma żadnych więzi do zerwania.