Od lat krążyły pogłoski, że Google wykorzystuje wszystkie dostępne funkcje do tworzenia algorytmów predykcyjnych. Do tej pory jednak nie pojawiły się żadne zastrzeżenia, wyjaśnienia ani oficjalne dokumenty wyjaśniające i / lub kwestionujące tę plotkę. Nawet ich opublikowane patenty nie pomagają w zrozumieniu. W rezultacie nikt poza Google nie wie, co robi, zgodnie z moją najlepszą wiedzą.
/ * Aktualizacja we wrześniu 2019 r. Ewangelista Google Tensorflow zapisał się w prezentacji stwierdzając, że inżynierowie Google regularnie oceniają ponad 5 miliardów parametrów dla bieżącej wersji PageRank . * /
Jak zauważa OP, jednym z największych problemów w modelowaniu predykcyjnym jest powiązanie klasycznego testowania hipotez z dokładną specyfikacją modelu w porównaniu do eksploracji czystych danych. Klasycznie wyszkoleni mogą być dość dogmatyczni w kwestii potrzeby „rygorystyczności” w projektowaniu i rozwoju modeli. Faktem jest, że w konfrontacji z ogromną liczbą potencjalnych predyktorów i wieloma możliwymi celami lub zmiennymi zależnymi, klasyczny schemat nie działa, nie zawiera ani nie zapewnia użytecznych wskazówek. Liczne ostatnie artykuły opisują ten dylemat z genialnego artykułu Chattopadhyay i Lipsona Smashing danych: Odkrywanie czającego się porządku w danych http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Kluczowym wąskim gardłem jest to, że większość algorytmów porównywania danych polega obecnie na ekspercie-człowieku, który określa, jakie „cechy” danych są istotne dla porównania. Proponujemy tutaj nową zasadę szacowania podobieństwa między źródłami dowolnych strumieni danych, nie wykorzystując ani wiedzy w dziedzinie, ani uczenia się.
Do zeszłorocznego artykułu AER na temat problemów z prognozami autorstwa Kleinberga i in. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, co uzasadnia eksplorację danych i prognozowanie jako przydatne narzędzia w tworzeniu polityki gospodarczej, powołując się na przypadki, w których „wnioskowanie przyczynowe nie jest centralne, a nawet konieczne. „
Faktem jest, że większe pytanie za 64 000 USD to szerokie przesunięcie w myśleniu i wyzwania w stosunku do klasycznych ram testowania hipotez ukrytych np. W sympozjum Edge.org na temat „przestarzałego” myślenia naukowego https://www.edge.org/ odpowiedzi / co-naukowy-pomysł-jest gotowy do przejścia na emeryturę, a także najnowszy artykuł Erica Beinhockera na temat „nowej ekonomii”, który przedstawia kilka radykalnych propozycji integracji bardzo różnych dyscyplin, takich jak ekonomia behawioralna, teoria złożoności, model predykcyjny teoria rozwoju, sieci i portfela jako platforma do wdrażania i przyjmowania polityk https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Nie trzeba dodawać, że kwestie te wykraczają daleko poza kwestie ekonomiczne i sugerują, że przechodzimy zasadniczą zmianę paradygmatów naukowych. Zmieniające się poglądy są tak fundamentalne, jak rozróżnienie między redukcjonistycznym, budowaniem modelu jak brzytwa Ockhama a rozległa Zasada Pełności Epikura lub liczne wyjaśnienia, które z grubsza stwierdzają, że jeśli kilka ustaleń coś wyjaśnia, zachowaj je wszystkie ... https: // en. wikipedia.org/wiki/Principle_of_plenitude
Oczywiście, faceci tacy jak Beinhocker są całkowicie nieobciążeni praktycznymi, w okopach obawami dotyczącymi stosowanych, statystycznych rozwiązań tego ewoluującego paradygmatu. Jeśli chodzi o drobiazgowe pytania o ultra-wysoki wybór zmiennych wymiarowych, OP jest stosunkowo niespecyficzny, jeśli chodzi o realne podejścia do budowy modelu, które mogą wykorzystać, np. Lasso, LAR, algorytmy krokowe lub „modele słoni”, które wykorzystują wszystkie dostępne informacje. Rzeczywistość jest taka, że nawet z AWS lub superkomputerem nie można jednocześnie korzystać ze wszystkich dostępnych informacji - po prostu nie ma wystarczającej ilości pamięci RAM, aby je załadować. Co to znaczy? Zaproponowano obejścia, np. odkrycie NSF w złożonych lub masywnych zestawach danych: wspólne tematy statystycznealgorytmy „dziel i rządź” dla masowej eksploracji danych, np. artykuł Wanga i in., Badanie metod statystycznych i obliczeń dla dużych zbiorów danych http://arxiv.org/pdf/1502.07989.pdf oraz Leskovec i in. książka Mining of Massive Datasets http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&ke words=Mining+of+Massive+Datasets
Istnieją obecnie dosłownie setki, jeśli nie tysiące artykułów na temat różnych aspektów tych wyzwań, wszystkie proponujące bardzo różne silniki analityczne jako rdzeń algorytmów „dziel i rządź”; modele „głębokiego uczenia się” bez nadzoru; teoria losowej macierzy zastosowana do masywnej konstrukcji kowariancji; Bayesowskie modele tensorów do klasycznej, nadzorowanej regresji logistycznej i nie tylko. Piętnaście lat temu debata w dużej mierze koncentrowała się na kwestiach dotyczących względnych zalet hierarchicznych rozwiązań bayesowskich w porównaniu z częstymi modelami skończonej mieszanki. W artykule na ten temat Ainslie i in. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1.197.788&rep=rep1&type=pdfdoszedł do wniosku, że różne podejścia teoretyczne w praktyce dały w dużej mierze równoważne wyniki, z wyjątkiem problemów związanych z danymi rzadkimi i / lub wysokowymiarowymi, w których modele HB miały tę przewagę. Dzisiaj, wraz z pojawieniem się obejść D&C, wszelkie modele HB arbitrażu, z których historycznie korzystali, są eliminowane.
Podstawową logiką tych obejść D&C są w zasadzie rozszerzenia słynnej losowej techniki leśnej Breimana, która polegała na ponownym próbkowaniu obserwacji i funkcji. Breiman wykonał swoją pracę pod koniec lat 90. na jednym procesorze, gdy ogromne dane oznaczały kilkadziesiąt koncertów i kilka tysięcy funkcji. Na dzisiejszych, masowo równoległych, wielordzeniowych platformach możliwe jest uruchomienie algorytmów analizujących terabajty danych zawierających dziesiątki milionów funkcji budujących miliony mini-modeli „RF” w ciągu kilku godzin.
Z tego wszystkiego wynika wiele ważnych pytań. Należy poradzić sobie z obawą o utratę precyzji z uwagi na przybliżony charakter tych obejść. Problem ten został rozwiązany przez Chen i Xie w ich artykule Split-and-Conquer Approach for Analysis of the wyjątkowo niezwykle Data Data http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01-01.pdf gdzie podsumowują że przybliżenia różnią się nie do odróżnienia od modeli „pełnej informacji”.
Druga obawa, która według mojej najlepszej wiedzy nie została odpowiednio poruszona w literaturze, dotyczy tego, co zrobiono z wynikami (tj. „Parametrami”) potencjalnie milionów predykcyjnych mini-modeli po obejściu zostały zwinięte i podsumowane. Innymi słowy, w jaki sposób można wykonać coś tak prostego, jak „ocenianie” nowych danych za pomocą tych wyników? Czy współczynniki mini-modelu należy zapisać i zapisać, czy też po prostu ponownie uruchamia algorytm d & c dla nowych danych?
W swojej książce „ Numbers Rule Your World” Kaiser Fung opisuje dylemat, przed którym stanęła Netflix, gdy został zaprezentowany z zespołem 104 modeli przekazanych przez zwycięzców konkursu. Zwycięzcy rzeczywiście zminimalizowali MSE w porównaniu ze wszystkimi innymi konkurentami, ale przełożyło się to na poprawę dokładności o kilka miejsc po przecinku w 5-punktowej skali ocen typu Likert stosowanej przez ich system rekomendacji filmów. Ponadto utrzymanie infrastruktury IT wymagane dla tego zestawu modeli kosztuje znacznie więcej niż jakiekolwiek oszczędności wynikające z „poprawy” dokładności modelu.
Pozostaje więc pytanie, czy „optymalizacja” jest w ogóle możliwa z informacjami o tej wielkości. Na przykład Emmanuel Derman, fizyk i inżynier finansowy, w swojej książce My Life as a Quant sugeruje, że optymalizacja jest niezrównoważonym mitem, przynajmniej w inżynierii finansowej.
Wreszcie, ważne pytania dotyczące względnej ważności cech z ogromną liczbą cech muszą jeszcze zostać rozwiązane.
Nie ma łatwych odpowiedzi na pytania dotyczące potrzeby wyboru zmiennych, a nowe wyzwania, jakie otwierają obecne, epikurejskie obejścia, wymagają rozwiązania. Najważniejsze jest to, że wszyscy jesteśmy teraz naukowcami danych.
**** EDYCJA ***
Referencje
Chattopadhyay I, Lipson H. 2014 Niszczenie danych: odkrywanie czającego się porządku w danych. JR Soc. Interfejs 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan i Ziad Obermeyer. 2015. „Problemy z prognozami”. American Economic Review, 105 (5): 491–95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Coroczne pytanie: JAKA POMYSŁ NAUKOWY JEST GOTOWY DO WYCOFANIA?
https://www.edge.org/respactions/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Jak głębokie zmiany w ekonomii czynią debatę lewą kontra prawą nieważną, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Zasada Epikur wielu wyjaśnień: zachowaj wszystkie modele. Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Odkrycie w złożonych lub masywnych zestawach danych: wspólne tematy statystyczne, warsztaty finansowane przez National Science Foundation, 16-17 października 2007 r.
Https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Metody statystyczne i przetwarzanie danych dla dużych zbiorów danych, dokument roboczy Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu i Jun Yan, 29 października 2015 r.
Http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press; 2 wydanie (29 grudnia 2014 r.) ISBN: 978-1107077232
Matryce kowariancji dużych próbek i analizy danych wielowymiarowych (seria Cambridge w matematyce statystycznej i probabilistycznej), autor: Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 wydanie (30 marca 2015 r.) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE i IMRAN S. CURRIM, Empiryczne porównanie modeli Logit Choice z dyskretnymi i ciągłymi reprezentacjami heterogeniczności, Journal of Marketing Research, 479 obj. XXXIX (listopad 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Podejście Split-and-Conquer do analizy wyjątkowo dużych danych, Xueying Chen i Minge Xie, Raport techniczny DIMACS 2012-01, styczeń 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Liczby rządzą światem: ukryty wpływ prawdopodobieństwa i statystyki na wszystko, co robisz, edukacja McGraw-Hill; 1 wydanie (15 lutego 2010 r.) ISBN: 978-0071626538
Emmanuel Derman, My Life as a Quant: Refleksje na temat fizyki i finansów, Wiley; 1 wydanie (11 stycznia 2016 r.) ISBN: 978-0470192733
* Aktualizacja w listopadzie 2017 r. *
Książka Nathana Kutza z 2013 r., Modelowanie oparte na danych i obliczenia naukowe: Methods for Complex Systems & Big Data to matematyczna i skoncentrowana na PDE wyprawa do wyboru zmiennych, a także metod i narzędzi do zmniejszania wymiarów. Doskonałe, 1-godzinne wprowadzenie do jego myślenia można znaleźć w tym wideo na Youtube z czerwca 2017 r. Odkrycie danych Dynamical Systems i PDE . Zawiera w nim odniesienia do najnowszych osiągnięć w tej dziedzinie. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop