Online, skalowalne metody statystyczne


12

Inspiracją do tego była wydajna regresja liniowa online , która była dla mnie bardzo interesująca. Czy są jakieś teksty lub zasoby poświęcone obliczeniom statystycznym na dużą skalę, w których obliczenia z zestawami danych są zbyt duże, aby zmieściły się w pamięci głównej, a być może zbyt zróżnicowane, aby skutecznie podpróbować. Na przykład, czy można dopasować modele z efektami mieszanymi do mody online? Czy ktoś przyjrzał się efektom zastąpienia standardowych technik optymalizacji drugiego rzędu dla MLE technikami typu SGD pierwszego rzędu?


Myślę, że odpowiedź brzmi „tak”. Oczywiście jest tu trochę problemu z definicjami. To, co jedna osoba uważa za „na dużą skalę”, czasami bardzo różni się od innych. Mam wrażenie, że np. Wielu naukowców akademickich uważa zestaw danych Netflix za „na dużą skalę”, podczas gdy w wielu warunkach przemysłowych byłoby to uważane za „mizerne”. Jeśli chodzi o techniki szacowania, zwykle z bardzo dużymi danymi, wydajność obliczeniowa przebija wydajność statystyczną. Na przykład metoda momentów w wielu przypadkach będzie działać (prawie), a także MLE w tych ustawieniach i może być znacznie łatwiejsza do obliczenia.
kardynał

2
możesz także zajrzeć do Warsztatu na temat algorytmów dla nowoczesnych zbiorów danych masowych (MMDS). Jest młody, ale przyciąga imponujący zestaw mówców na interfejsach statystyki, inżynierii i informatyki, a także między środowiskiem akademickim a przemysłem.
kardynał

Minęło zaledwie kilka dziesięcioleci, ponieważ większość zestawów danych była zbyt duża, aby zmieścić się w pamięci głównej, a wybór algorytmów stosowanych we wczesnych programach statystycznych to odzwierciedlał. Takie programy nie miały jednak ułatwień dla modeli z efektami mieszanymi.
onestop

Czy jesteś w stanie obliczyć statystyki dla zestawu danych? np. suma lub średnie pozycji danych?
Prawdopodobieństwo

Odpowiedzi:


5

Możesz zajrzeć do projektu Vowpal Wabbit od Johna Langforda z Yahoo! Badania . Jest uczniem online, który specjalizuje się w opadaniu gradientu na kilku funkcjach utraty. VW ma pewne cechy zabójcy:

  • Instaluje się na Ubuntu w trywialny sposób, z „sudo apt-get install installpalpal-wabbit”.
  • Wykorzystuje sztuczkę haszującą dla naprawdę dużych przestrzeni obiektów.
  • Odważniki adaptacyjne specyficzne dla funkcji.
  • Co najważniejsze, istnieje aktywna lista mailingowa i społeczność łącząca projekt.

Książka Bianchi & Lugosi Przewidywanie, uczenie się i gry daje solidne podstawy teoretyczne do nauki online. Ciężka lektura, ale warto!

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.