Nowy rewolucyjny sposób eksploracji danych?

21

Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy:

Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”:

Wiele osób uważa, że są w porządku, ponieważ używają danych z próby do szkolenia i danych z próby do testowania. Następnie sortują modele na podstawie tego, jak działały na danych z próby i wybierają najlepsze do przetestowania na danych z próby. Ludzką tendencją jest przyjmowanie modeli, które nadal dobrze sobie radzą z danymi z próby i wybieranie tych modeli do handlu. Ten rodzaj procesu po prostu zamienia dane poza próbą w część danych szkoleniowych, ponieważ pozwala wybrać modele, które najlepiej działały w okresie poza próbą. Jest to jeden z najczęstszych błędów popełnianych przez ludzi i jeden z powodów, dla których eksploracja danych w typowym zastosowaniu przynosi straszne wyniki.

Ankieter pyta: „Co powinieneś zamiast tego zrobić?”:

Możesz szukać wzorców, w których przeciętnie wszystkie modele poza próbą nadal mają się dobrze. Wiesz, że dobrze sobie radzisz, jeśli średnia dla modeli poza próbą stanowi znaczący procent wyniku w próbie. Ogólnie rzecz biorąc, naprawdę osiągasz gdzieś, jeśli wyniki poza próbą stanowią więcej niż 50 procent próby. Model biznesowy QIM nigdy by się nie sprawdził, gdyby SAS i IBM budowały świetne oprogramowanie do modelowania predykcyjnego.

Moje pytania
Czy to ma jakiś sens? Co on ma na myśli? Czy masz jakieś wskazówki - a może nawet nazwę proponowanej metody i niektóre referencje? A może ten facet znalazł świętego Graala, którego nikt inny nie rozumie? Mówi nawet w tym wywiadzie, że jego metoda może potencjalnie zrewolucjonizować naukę ...

data-mining curve-fitting out-of-sample

— vonjd
źródło

4

Czy nie omawia po prostu błędów z pojedynczej próbki podzielonej (trenowanie i walidacja) i opowiada się za procesem zagnieżdżania krzyżowego?

— B_Miner

12

Byłbym ostrożny, gdyby ktokolwiek twierdził, że ma głęboki wgląd, który zrewolucjonizuje „naukę”.

— kardynał

2

Zarządzający funduszami hedgingowymi, twierdząc, że mają „lepsze podejście do modelowania” i robią trochę śmieci, mówiąc o konkurencji? Nic nowego.

— zbicyclist

2

wow, jak to pytanie dostaje tyle głosów poparcia? Prognozowanie poza próbą jest zagadnieniem omawianym pierwszego dnia każdego wstępnego kursu uczenia maszynowego. Są tacy, którzy nie odnoszą się poprawnie do prognoz poza próbą, ale na pewno nikt nie ma nawet najmniejszej wskazówki na temat przewidywania.

— user4733

Handel jest oczywiście problemem serezy czasowej, a jego zdaniem wydaje się, że walidacja krzyżowa (oczywiście przy użyciu znanych danych) nie może rozwiązać problemu zmiany struktury z czasem !, więc nie jest świętym Graalem. Ale tego, co faktycznie robi, nie można wywnioskować.

— kjetil b halvorsen

6

Czy to ma jakiś sens ? Częściowo.

Co on ma na myśli? Proszę go zapytać.

Czy masz jakieś wskazówki - a może nawet nazwę proponowanej metody i niektóre referencje?

Cross Validation. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

A może ten facet znalazł świętego Graala, którego nikt inny nie rozumie? Nie.

On nawet mówi w tym wywiadzie, że jego metoda może potencjalnie zrewolucjonizować naukę ... Być może zapomniał zawierać odniesień do tego oświadczenia ...

— image_doctor
źródło

2

Przynajmniej wskazuje prawdziwy problem ...

8

Nie jestem pewien, czy będą jakieś inne „łobuzerskie” odpowiedzi, ale oto moje.

Cross Validation nie jest w żadnym wypadku „nowy”. Ponadto krzyżowej walidacji nie stosuje się, gdy zostaną znalezione rozwiązania analityczne. Na przykład nie używasz weryfikacji krzyżowej do oszacowania bety, używasz OLS lub IRLS lub innego „optymalnego” rozwiązania.

To, co postrzegam jako rażąco oczywistą lukę w cytacie, nie odnosi się do żadnego pojęcia rzeczywistego sprawdzania „najlepszych” modeli, aby sprawdzić, czy mają one sens. Ogólnie rzecz biorąc, dobry model ma sens na pewnym poziomie intuicyjnym. Wydaje się, że twierdzenie jest takie, że CV jest srebrną kulą dla wszystkich problemów z prognozowaniem. Nie ma również rozmowa się utworzenie na wyższym poziomie struktury modelu - używamy SVM , regresja Drzewa , Poprawa , Bagging , OLS , GLMS , GLMNS. Czy regularyzujemy zmienne? Jeśli tak to jak? Czy grupujemy zmienne razem? Czy chcemy solidności do rzadkości? Czy mamy wartości odstające? Czy powinniśmy modelować dane jako całość czy w kawałkach? Istnieje zbyt wiele podejść, aby podjąć decyzję na podstawie CV .

Innym ważnym aspektem jest to, jakie systemy komputerowe są dostępne? Jak są przechowywane i przetwarzane dane? Czy brakuje zaginięcia - jak to wyjaśnić?

A oto najważniejsze: czy mamy wystarczająco dobre dane, aby robić dobre prognozy? Czy są znane zmienne, których nie mamy w naszym zestawie danych? Czy nasze dane są reprezentatywne dla wszystkiego, co próbujemy przewidzieć?

$K$ $K-2$

$n$ $p$ $n$ $p$ $n$ $p$

— prawdopodobieństwo prawdopodobieństwa
źródło

9

Niezły rant. Byłby o wiele łatwiejszy do odczytania, gdybyś używał okazjonalnych czapek ...

— MånsT

4

Jego wyjaśnienie częstego błędu w eksploracji danych wydaje się rozsądne. Jego wyjaśnienie tego, co robi, nie ma sensu. Co ma na myśli, mówiąc: „Mówiąc ogólnie, naprawdę osiągasz cel, jeśli wyniki poza próbą stanowią ponad 50 procent próby”. Złe usta SAS i IBM też nie sprawiają, że wygląda bardzo elegancko. Ludzie mogą odnieść sukces na rynku bez zrozumienia statystyk, a częścią sukcesu jest szczęście. Błędem jest traktować odnoszących sukcesy biznesmenów, jakby byli guru prognozowania.

— Michael R. Chernick
źródło

1

Czy nie jest całkiem jasne, co rozumie się przez cytowane oświadczenie? W zależności od tego, jak mają być używane modele, to, co mówi, może mieć wiele sensu. Na przykład głównym „wyzwaniem” związanym z wyzwaniem Netflix wydaje się być moc „mieszania modeli”, o ile nie ma potrzeby interpretacji. W takim przypadku pewna „średnia” wydajność przykładowych modeli może być całkowicie istotna.

— kardynał

@cardinal: Czy możesz udzielić odpowiedzi na podstawie tych bardzo interesujących myśli? Byłoby wspaniale, dziękuję!

— vonjd

2

@ kardynał Być może jest to dla ciebie jasne, ale następnie wyjaśnij zdanie „Naprawdę coś osiągasz, jeśli wyniki poza próbą stanowią więcej niż 50 procent w próbie”. Jeśli mówisz, że uśrednianie zestawień dla różnych modeli może być skuteczne, to oczywiście mogę się z tym zgodzić. Wykazano, że zwiększanie wydajności działa dobrze w wielu aplikacjach. Ale nie rozumiem, skąd bierze się ta uwaga Woodriffa.

— Michael R. Chernick

2

Oczywiście nie znam szczegółów tego, o co twierdzi pan Woodriff, ale moja interpretacja tego na podstawie fragmentu jest w pewnym stopniu efektem: „[W moich aplikacjach], jeśli średnia wydajność poza próbą [przy użyciu dowolnej miary Uważam, że ma to znaczenie] jest co najmniej w połowie tak dobre, jak wydajność w próbie po dopasowaniu modelu, to ma znaczenie dla mojej aplikacji ”. Jestem matematykiem / statystykiem, więc potrzebuję ostrzeżeń. Gdybym był zarządzającym funduszem hedgingowym i szukał jakiegoś zewnętrznego uznania, mógłbym być bardziej imponujący i absolutny w moich uwagach.

— kardynał

1

@ cardinal Więc weź wskaźnik błędu jako miarę wydajności, a następnie zinterpretuj Woodriffa, aby powiedzieć, że jeśli wskaźnik błędu w próbie wynosi 5%, a wskaźnik błędu w próbie wynosi 10%, to metoda jest dobra? Dlaczego po prostu nie spojrzeć na wyniki próby, aby zdecydować? Przypuszczam, że stosunek wydajności poza próbą do wydajności w próbce mówi ci coś o tym, jak wiarygodne / niewiarygodne jest oszacowanie wskaźnika błędów w próbie, ale nie widzę, aby miało to wpływ na ocenę wydajności klasyfikatora. Nadal nie rozumiem, gdzie mieszanie modeli wpisuje się w jego uwagi.

— Michael R. Chernick,

4

Możesz szukać wzorców , w których przeciętnie wszystkie modele poza próbą nadal mają się dobrze.

Rozumiem tutaj wzorce słów , że oznacza on różne warunki rynkowe. Naiwne podejście analizuje wszystkie dostępne dane (wszyscy wiemy, że więcej danych jest lepsze), aby wyszkolić najlepszy model dopasowania krzywej, a następnie uruchomić go na wszystkich danych i handlować nimi przez cały czas.

Bardziej skuteczni zarządzający funduszami hedgingowymi i handlowcy algorytmiczni wykorzystują swoją wiedzę rynkową. Jako konkretny przykład pierwsza pół godziny sesji giełdowej może być bardziej niestabilna. Dlatego wypróbują modele na wszystkich swoich danych, ale tylko przez tę pierwszą pół godziny i na wszystkich swoich danych, ale z wyłączeniem tej pierwszej pół godziny. Mogą odkryć, że dwa z ich modeli mają się dobrze w pierwszej połowie godziny, ale osiem z nich traci pieniądze. Podczas gdy po wykluczeniu tej pierwszej pół godziny, siedem ich modeli zarabia pieniądze, trzy tracą pieniądze.

Ale zamiast brać te dwa zwycięskie modele i wykorzystywać je w pierwszej połowie handlu, mówią: to zły dzień na handel algorytmiczny i wcale nie zamierzamy handlować. Przez resztę dnia będą używać swoich siedmiu modeli. Wydaje się, że w tamtych czasach łatwiej jest przewidzieć rynek dzięki uczeniu maszynowemu, więc modele te mają większe szanse na niezawodność w przyszłości. (Pora dnia nie jest jedynym wzorcem; inne są zwykle związane z wydarzeniami informacyjnymi, np. Rynek jest bardziej niestabilny tuż przed ogłoszeniem kluczowych danych ekonomicznych).

Taka jest moja interpretacja tego, co mówi; może to być całkowicie błędne, ale mam nadzieję, że nadal jest to przydatne dla kogoś do przemyślenia.

— Darren Cook
źródło

2

Jako specjalista ds. Finansów znam wystarczająco dużo kontekstu, aby oświadczenie nie zawierało żadnych dwuznaczności. Finansowe szeregi czasowe często charakteryzują się zmianami reżimu, załamaniami strukturalnymi i odchyleniem koncepcji, więc walidacja krzyżowa stosowana w innych branżach nie jest tak skuteczna w zastosowaniach finansowych. W drugiej części odnosi się do miernika finansowego, albo zwrotu z inwestycji na wskaźniku Sharpe'a (zwrot w liczniku), a nie MSE lub innej funkcji straty. Jeśli strategia w próbie przyniesie 10% zwrotu, to w realnym handlu może całkiem realistycznie wygenerować tylko 5%. „Rewolucyjna” część z pewnością dotyczy jego autorskiego podejścia analitycznego, a nie cytatów.

— onlyvix.blogspot.com
źródło

Pytanie, które należy odpowiedzieć onlyvix: Czy znasz pracę wykorzystującą metryki finansowe jako narzędzie do optymalizacji parametrów, to znaczy bezpośrednio optymalizującą parametry poprzez maksymalizację tej metryki, a nie maksymalne prawdopodobieństwo?

— kjetil b halvorsen

@ kbh to nie moja metryka finansowa - optymalizacja pod kątem wskaźnika Sharpe jest bardzo powszechna. Jeden przykład na samej górze mojej głowy ssrn.com/abstract=962461 - nie opracowano dokładnego modelu statystycznego, ale stworzono reguły handlu, które (w bardzo ogólnym ujęciu) maksymalizują zwroty i minimalizują ryzyko.

— onlyvix.blogspot.com