Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy:
Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”:
Wiele osób uważa, że są w porządku, ponieważ używają danych z próby do szkolenia i danych z próby do testowania. Następnie sortują modele na podstawie tego, jak działały na danych z próby i wybierają najlepsze do przetestowania na danych z próby. Ludzką tendencją jest przyjmowanie modeli, które nadal dobrze sobie radzą z danymi z próby i wybieranie tych modeli do handlu. Ten rodzaj procesu po prostu zamienia dane poza próbą w część danych szkoleniowych, ponieważ pozwala wybrać modele, które najlepiej działały w okresie poza próbą. Jest to jeden z najczęstszych błędów popełnianych przez ludzi i jeden z powodów, dla których eksploracja danych w typowym zastosowaniu przynosi straszne wyniki.
Ankieter pyta: „Co powinieneś zamiast tego zrobić?”:
Możesz szukać wzorców, w których przeciętnie wszystkie modele poza próbą nadal mają się dobrze. Wiesz, że dobrze sobie radzisz, jeśli średnia dla modeli poza próbą stanowi znaczący procent wyniku w próbie. Ogólnie rzecz biorąc, naprawdę osiągasz gdzieś, jeśli wyniki poza próbą stanowią więcej niż 50 procent próby. Model biznesowy QIM nigdy by się nie sprawdził, gdyby SAS i IBM budowały świetne oprogramowanie do modelowania predykcyjnego.
Moje pytania
Czy to ma jakiś sens? Co on ma na myśli? Czy masz jakieś wskazówki - a może nawet nazwę proponowanej metody i niektóre referencje? A może ten facet znalazł świętego Graala, którego nikt inny nie rozumie? Mówi nawet w tym wywiadzie, że jego metoda może potencjalnie zrewolucjonizować naukę ...