Chcę wyszkolić klasyfikatora, który będzie rozróżniał Type A
i Type B
przedmioty przy pomocy dość dużego zestawu szkoleniowego złożonego z około 10 000 obiektów, z których około połowa jest, Type A
a połowa z nich jest Type B
. Zestaw danych składa się ze 100 ciągłych elementów wyszczególniających właściwości fizyczne komórek (rozmiar, średni promień itp.). Wizualizacja danych na parach wykresów rozrzutu i wykresach gęstości mówi nam, że w wielu cechach zachodzi znaczące nakładanie się rozkładów komórek rakowych i normalnych.
Obecnie badam losowe lasy jako metodę klasyfikacji dla tego zestawu danych i zauważyłem kilka dobrych wyników. Za pomocą R losowe lasy są w stanie poprawnie sklasyfikować około 90% obiektów.
Jedną z rzeczy, które chcemy spróbować, jest stworzenie pewnego rodzaju „wskaźnika pewności”, który będzie określał, jak bardzo jesteśmy pewni klasyfikacji obiektów. Wiemy, że nasz klasyfikator nigdy nie będzie w 100% dokładny, a nawet jeśli zostanie osiągnięta wysoka dokładność prognoz, będziemy chcieli, aby przeszkoleni technicy zidentyfikowali, które obiekty są naprawdę Type A
i Type B
. Zamiast więc dostarczać bezkompromisowe prognozy dla Type A
lub Type B
, chcemy przedstawić ocenę dla każdego obiektu, która opisuje, jak A
lub B
obiekt jest. Na przykład, jeśli opracujemy wynik w zakresie od 0 do 10, wynik 0 może wskazywać, że obiekt jest bardzo podobny do Type A
obiektów, a wynik 10 wskazuje, że obiekt jest bardzo podobny Type B
.
Myślałem, że przy pomocy głosów w losowych lasach opracuję taki wynik. Ponieważ klasyfikacja w losowych lasach odbywa się poprzez głosowanie większością głosów w lesie wygenerowanych drzew, zakładam, że obiekty, na które głosowało 100% drzew, Type A
różniłyby się od obiektów, na które głosowało, powiedzmy, 51% drzew na być Type A
.
Obecnie próbowałem ustalić arbitralny próg dla proporcji głosów, które obiekt musi otrzymać, aby zostać zaklasyfikowany jako Type A
lub Type B
, a jeśli próg nie zostanie przekroczony, zostanie zaklasyfikowany jako Uncertain
. Na przykład, jeśli wymuszę warunek, że 80% lub więcej drzew musi zgodzić się na decyzję dotyczącą zaliczenia klasyfikacji, stwierdzę, że 99% przewidywań klasy jest poprawnych, ale około 40% obiektów jest binowanych jako Uncertain
.
Czy miałoby zatem sens wykorzystanie informacji z głosowania w celu uzyskania pewności prognoz? A może myślę w złym kierunku?