Chcę wyszkolić klasyfikatora, który będzie rozróżniał Type Ai Type Bprzedmioty przy pomocy dość dużego zestawu szkoleniowego złożonego z około 10 000 obiektów, z których około połowa jest, Type Aa połowa z nich jest Type B. Zestaw danych składa się ze 100 ciągłych elementów wyszczególniających właściwości fizyczne komórek (rozmiar, średni promień itp.). Wizualizacja danych na parach wykresów rozrzutu i wykresach gęstości mówi nam, że w wielu cechach zachodzi znaczące nakładanie się rozkładów komórek rakowych i normalnych.
Obecnie badam losowe lasy jako metodę klasyfikacji dla tego zestawu danych i zauważyłem kilka dobrych wyników. Za pomocą R losowe lasy są w stanie poprawnie sklasyfikować około 90% obiektów.
Jedną z rzeczy, które chcemy spróbować, jest stworzenie pewnego rodzaju „wskaźnika pewności”, który będzie określał, jak bardzo jesteśmy pewni klasyfikacji obiektów. Wiemy, że nasz klasyfikator nigdy nie będzie w 100% dokładny, a nawet jeśli zostanie osiągnięta wysoka dokładność prognoz, będziemy chcieli, aby przeszkoleni technicy zidentyfikowali, które obiekty są naprawdę Type Ai Type B. Zamiast więc dostarczać bezkompromisowe prognozy dla Type Alub Type B, chcemy przedstawić ocenę dla każdego obiektu, która opisuje, jak Alub Bobiekt jest. Na przykład, jeśli opracujemy wynik w zakresie od 0 do 10, wynik 0 może wskazywać, że obiekt jest bardzo podobny do Type Aobiektów, a wynik 10 wskazuje, że obiekt jest bardzo podobny Type B.
Myślałem, że przy pomocy głosów w losowych lasach opracuję taki wynik. Ponieważ klasyfikacja w losowych lasach odbywa się poprzez głosowanie większością głosów w lesie wygenerowanych drzew, zakładam, że obiekty, na które głosowało 100% drzew, Type Aróżniłyby się od obiektów, na które głosowało, powiedzmy, 51% drzew na być Type A.
Obecnie próbowałem ustalić arbitralny próg dla proporcji głosów, które obiekt musi otrzymać, aby zostać zaklasyfikowany jako Type Alub Type B, a jeśli próg nie zostanie przekroczony, zostanie zaklasyfikowany jako Uncertain. Na przykład, jeśli wymuszę warunek, że 80% lub więcej drzew musi zgodzić się na decyzję dotyczącą zaliczenia klasyfikacji, stwierdzę, że 99% przewidywań klasy jest poprawnych, ale około 40% obiektów jest binowanych jako Uncertain.
Czy miałoby zatem sens wykorzystanie informacji z głosowania w celu uzyskania pewności prognoz? A może myślę w złym kierunku?