Przeczytałem inne tematy dotyczące wykresów częściowej zależności, a większość z nich dotyczy tego, w jaki sposób rysujesz je różnymi pakietami, a nie jak możesz je dokładnie interpretować, więc:
Czytałem i tworzyłem sporo wykresów częściowej zależności. Wiem, że mierzą marginalny wpływ zmiennej ons na funkcję ƒS (χS) ze średnim wpływem wszystkich innych zmiennych (χc) z mojego modelu. Wyższe wartości y oznaczają, że mają większy wpływ na dokładne przewidywanie mojej klasy. Jednak nie jestem zadowolony z tej jakościowej interpretacji.
Mój model (losowy las) przewiduje dwie dyskretne klasy. „Tak drzewa” i „Brak drzew”. TRI jest zmienną, która okazała się dobrą zmienną do tego celu.
Zacząłem myśleć, że wartość Y pokazuje prawdopodobieństwo prawidłowej klasyfikacji. Przykład: y (0,2) pokazuje, że wartości TRI> ~ 30 mają 20% szansy na prawidłowe zidentyfikowanie prawdziwie pozytywnej klasyfikacji.
Gdzie odwrotnie
y (-0,2) pokazuje, że wartości TRI <~ 15 mają 20% szansy na prawidłowe zidentyfikowanie klasyfikacji True Negative.
Ogólne interpretacje dokonane w literaturze brzmią następująco: „Wartości większe niż TRI 30 zaczynają mieć pozytywny wpływ na klasyfikację w twoim modelu” i to wszystko. Brzmi tak niejasno i bezcelowo, jak na fabułę, która potencjalnie może tyle mówić o twoich danych.
Ponadto wszystkie moje wykresy mają zakres od -1 do 1 w zakresie dla osi y. Widziałem inne wykresy, które mają od -10 do 10 itd. Czy to funkcja liczby klas, które próbujesz przewidzieć?
Zastanawiałem się, czy ktoś może porozmawiać z tym problemem. Może pokaż mi, jak powinienem interpretować te wątki lub literaturę, która może mi pomóc. Może czytam w to za daleko?
Przeczytałem bardzo dokładnie Elementy uczenia statystycznego: eksploracja danych, wnioskowanie i przewidywanie, i był to świetny punkt wyjścia, ale o to chodzi.