interpretacja osi y wykresów częściowej zależności


22

Przeczytałem inne tematy dotyczące wykresów częściowej zależności, a większość z nich dotyczy tego, w jaki sposób rysujesz je różnymi pakietami, a nie jak możesz je dokładnie interpretować, więc:

Czytałem i tworzyłem sporo wykresów częściowej zależności. Wiem, że mierzą marginalny wpływ zmiennej ons na funkcję ƒS (χS) ze średnim wpływem wszystkich innych zmiennych (χc) z mojego modelu. Wyższe wartości y oznaczają, że mają większy wpływ na dokładne przewidywanie mojej klasy. Jednak nie jestem zadowolony z tej jakościowej interpretacji.

Ten link pokazuje jedną z moich wielu fabuł.  http://imgur.com/RXqlOky

Mój model (losowy las) przewiduje dwie dyskretne klasy. „Tak drzewa” i „Brak drzew”. TRI jest zmienną, która okazała się dobrą zmienną do tego celu.

Zacząłem myśleć, że wartość Y pokazuje prawdopodobieństwo prawidłowej klasyfikacji. Przykład: y (0,2) pokazuje, że wartości TRI> ~ 30 mają 20% szansy na prawidłowe zidentyfikowanie prawdziwie pozytywnej klasyfikacji.

Gdzie odwrotnie

y (-0,2) pokazuje, że wartości TRI <~ 15 mają 20% szansy na prawidłowe zidentyfikowanie klasyfikacji True Negative.

Ogólne interpretacje dokonane w literaturze brzmią następująco: „Wartości większe niż TRI 30 zaczynają mieć pozytywny wpływ na klasyfikację w twoim modelu” i to wszystko. Brzmi tak niejasno i bezcelowo, jak na fabułę, która potencjalnie może tyle mówić o twoich danych.

Ponadto wszystkie moje wykresy mają zakres od -1 do 1 w zakresie dla osi y. Widziałem inne wykresy, które mają od -10 do 10 itd. Czy to funkcja liczby klas, które próbujesz przewidzieć?

Zastanawiałem się, czy ktoś może porozmawiać z tym problemem. Może pokaż mi, jak powinienem interpretować te wątki lub literaturę, która może mi pomóc. Może czytam w to za daleko?

Przeczytałem bardzo dokładnie Elementy uczenia statystycznego: eksploracja danych, wnioskowanie i przewidywanie, i był to świetny punkt wyjścia, ale o to chodzi.


Wykres pokazuje średnio prawdopodobieństwo drzewa tak do TRI 30, a następnie rośnie. Ten link wyjaśnia, jak interpretować binarną klasyfikację PDP i ciągłe wykresy zmiennych.
LazyNearestNeigbour

Odpowiedzi:


13

Każdy punkt na wykresie częściowej zależności jest średnim procentem głosów na korzyść klasy „Tak drzew” we wszystkich obserwacjach, przy ustalonym poziomie TRI.

To nie jest prawdopodobieństwo poprawnej klasyfikacji. Nie ma absolutnie nic wspólnego z dokładnością, prawdziwymi negatywami i prawdziwymi pozytywami.

Kiedy zobaczysz wyrażenie

Wartości większe niż TRI 30 zaczynają mieć pozytywny wpływ na klasyfikację w twoim modelu

to nadęty sposób mówienia

Wartości większe niż TRI 30 zaczynają przewidywać „Tak drzewa” mocniej niż wartości niższe niż TRI 30


2

Funkcja częściowej zależności w zasadzie daje „średni” trend tej zmiennej (integrując wszystkie pozostałe w modelu). „Kształt” tego trendu jest „ważny”. Możesz interpretować względny zakres tych wykresów na podstawie różnych zmiennych predykcyjnych, ale nie zakres bezwzględny. Mam nadzieję, że to pomaga.


2

Spojrzeniem na wartości osi y jest to, że są one względem siebie nawzajem na innych wykresach. Gdy liczba ta jest wyższa niż na innych wykresach w wartościach bezwzględnych, oznacza to, że jest to ważniejsze, ponieważ wpływ tej zmiennej na wynik jest większy.

Jeśli interesuje Cię matematyka stojąca za wykresami częściowej zależności i jak ta liczba jest szacowana, możesz ją znaleźć tutaj: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf sekcja 8.1

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.