Dlaczego kilka rodzajów modeli może dawać prawie identyczne wyniki?

10

Analizowałem zestaw danych ~ 400 000 rekordów i 9 zmiennych Zmienna zależna jest binarna. Dopasowałem regresję logistyczną, drzewo regresji, losowy las i drzewo wzmocnione gradientem. Wszystkie z nich dają wirtualną identyczną wartość dopasowania numerów, gdy sprawdzam je na innym zbiorze danych.

Dlaczego tak jest? Zgaduję, że dzieje się tak, ponieważ moje obserwacje w stosunku do zmiennych są tak wysokie. Jeśli jest to poprawne, przy jakiej obserwacji do zmiennej proporcji różne modele zaczną dawać różne wyniki?

data-mining classification binary

— JenSCDC
źródło

7

Wynika z tego, że niezależnie od zastosowanej metody jesteś w stanie zbliżyć się do optymalnej reguły decyzyjnej ( zwanej także regułą Bayesa ). Powody leżące u podstaw wyjaśniono w „Elementach uczenia statystycznego” Hastie, Tibshirani i Friedmana . Wykazali, jak działają różne metody, porównując ryc. 2.1, 2.2, 2.3, 5.11 (w moim pierwszym wydaniu - w części dotyczącej wielowymiarowych splajnów), 12.2, 12.3 (maszyny wektorów wspierających) i prawdopodobnie kilka innych. Jeśli nie przeczytałeś tej książki, musisz upuścić wszystko PRAWIDŁOWO TERAZ i przeczytać. (Chodzi mi o to, że nie warto tracić pracy, ale warto pominąć pracę domową lub dwie, jeśli jesteś studentem).

Nie sądzę, że obserwacje do zmiennej proporcji są wyjaśnieniem. W świetle mojego uzasadnienia przedstawionego powyżej, jest to stosunkowo prosta forma granicy oddzielającej twoje klasy w przestrzeni wielowymiarowej, którą wszystkie metody, które próbowałeś zidentyfikować.

— StasK
źródło

Zapytam szefa, czy uda mi się przekonać firmę do zapłaty.

— JenSCDC,

1

ESL jest „darmowy” jako plik pdf z ich strony głównej ... również warto pobrać ISL (przez wielu tych samych autorów) - bardziej praktyczne www-bcf.usc.edu/~gareth/ISL

— seanv507

4

warto też przyjrzeć się błędom szkoleniowym.

w zasadzie nie zgadzam się z twoją analizą. jeśli regresja logistyczna itp. dają te same wyniki, sugerowałoby to, że „najlepszy model” jest bardzo prosty (że wszystkie modele mogą pasować równie dobrze - np. zasadniczo liniowy).

Zatem pytanie może brzmieć: dlaczego najlepszy model jest prostym modelem? Może to sugerować, że twoje zmienne nie są bardzo przewidywalne. Oczywiście trudno analizować bez znajomości danych.

— seanv507
źródło

1

Jak sugerował @ seanv507, podobna wydajność może po prostu wynikać z tego, że dane najlepiej oddzielić modelem liniowym. Ale ogólnie stwierdzenie, że dzieje się tak, ponieważ „obserwacje do zmiennej stosunku są tak wysokie” jest nieprawidłowe. Nawet gdy stosunek wielkości próby do liczby zmiennych osiąga nieskończoność, nie należy oczekiwać, że różne modele będą działać niemal identycznie, chyba że wszystkie zapewniają takie same predykcyjne przewidywanie.

— bogatron
źródło

Właśnie edytowałem moje pytanie, aby dodać, że zmienna zależna jest binarna. Dlatego model liniowy nie jest odpowiedni.

— JenSCDC,

„nie należy oczekiwać, że różne modele będą działać niemal identycznie, chyba że wszystkie zapewniają takie same uprzedzenia predykcyjne”. Jako mierniki walidacji zastosowałem MAE i stosunek faktycznych do przewidywanych wyników, a wskaźniki były bardzo zbliżone.

— JenSCDC,

1

Andy, chciałbym uwzględnić regresję logistyczną (i liniową SVM) jako model „liniowy”. Wszystkie oddzielają tylko dane ważoną sumą danych wejściowych.

— seanv507

1

@ seanv507 Dokładnie - granica decyzji jest nadal liniowa. Fakt, że przeprowadzana jest klasyfikacja binarna, nie zmienia tego.

— bogatron

A co z drzewami? Naprawdę nie wydają mi się liniowe.

— JenSCDC,

0

Zgaduję, że dzieje się tak, ponieważ moje obserwacje w stosunku do zmiennych są tak wysokie.

Myślę, że to wyjaśnienie ma sens.

Jeśli jest to poprawne, przy jakiej obserwacji do zmiennej proporcji różne modele zaczną dawać różne wyniki?

Prawdopodobnie będzie to zależeć w dużym stopniu od konkretnych danych (na przykład, nawet od tego, czy dziewięć zmiennych jest ciągłych, czynników, zwykłych czy binarnych), a także od wszelkich decyzji dotyczących strojenia podjętych podczas dopasowywania modelu.

Możesz jednak bawić się współczynnikiem obserwacji do zmiennej - nie zwiększając liczbę zmiennych, ale zmniejszając liczbę obserwacji. Narysuj losowo 100 obserwacji, dopasuj modele i sprawdź, czy różne modele dają różne wyniki. (Chyba tak.) Zrób to wiele razy z różnymi próbkami pobranymi z twojej całkowitej liczby obserwacji. Następnie spójrz na podpróbki 1000 obserwacji ... 10 000 obserwacji ... i tak dalej.

— Stephan Kolassa
źródło

1

Hm dlaczego to jest? więcej obserwacji wydaje się zwiększać prawdopodobieństwo, że granica decyzyjna jest bardziej złożona - tj. zdecydowanie nieliniowa. Te modele robią różne rzeczy w skomplikowanych przypadkach i zwykle robią to samo w prostych.

— Sean Owen,

@SeanOwen: Myślę, że nie rozumiem twojego komentarza. Do jakiej części mojej odpowiedzi odnosi się „dlaczego”? OP nie mówił nic o stosowaniu liniowych granic decyzyjnych - w końcu mógłby w jakiś sposób przekształcać predyktory.

— Stephan Kolassa,

Dlaczego więcej obserwacji sprawia, że różni klasyfikatorzy wydają więcej podobnych decyzji? moja intuicja jest odwrotna. Tak, nie myślę o liniowych granicach decyzji. Im bardziej złożona jest optymalna granica, tym mniej prawdopodobne, że wszystkie zmieszczą się w czymś podobnym do tej granicy. Granica jest zwykle bardziej złożona z większą liczbą obserwacji.

— Sean Owen,