Najnowocześniejsze uczenie się przez streaming

Ostatnio pracuję z dużymi zestawami danych i znalazłem wiele artykułów na temat metod przesyłania strumieniowego. By wymienić tylko kilka:

Follow-the-Regularized-Leader and Mirror Descent: The Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
Streaming Learning: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
Pegasos: Primal Estimated sub-GrAdient SOlver for SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
lub tutaj: czy SVM może strumieniowo uczyć się jednego przykładu na raz?
Streaming Losowe lasy ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )

Nie udało mi się jednak znaleźć żadnej dokumentacji dotyczącej ich porównania. Każdy artykuł, który czytam, wydaje się przeprowadzać eksperymenty na innym zbiorze danych.

Wiem o sofii-ml, ślubnej wabbit, ale wydaje się, że wdrażają bardzo niewiele metod, w porównaniu do ogromnej liczby istniejących metod!

Czy mniej popularne algorytmy nie są wystarczająco wydajne? Czy jest jakaś praca, która próbuje przejrzeć jak najwięcej metod?

— RUser4512
źródło

Jeśli nie ma, powinieneś napisać to sam :)

— Chris C

rozumiesz, że ludzie ze środowisk akademickich muszą pisać artykuły / wymyślać nowe algorytmy i będą wyszukiwać zbiory danych, na których ich algorytm działa najlepiej. Radziłbym tylko upewnić się, że rozumiesz, jak działa jedna biblioteka, taka jak ślubna-wabbit (tj. Wszystkie parametry itp.).

— seanv507

W rzeczywistości jest odwrotnie! Zrozumiałem, że ludzie wybrali najlepszy zestaw danych i na ogół milczą na temat tego, w jaki sposób zweryfikowali algorytmy (zarówno swoje, jak i konkurujące metody). Raczej szukam wersji strumieniowej jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

— RUser4512

Naprawdę podoba Ci się link do JMLR. Sam nie znam podobnego porównania algorytmów przesyłania strumieniowego. Prawdopodobnie dlatego, że przesyłanie strumieniowe jest bardziej niszowe, a także ponieważ trudno jest porównywać klasyfikatory dla statycznych zestawów danych, jeszcze bardziej skomplikowane jest dokonanie rzetelnego porównania danych przesyłanych strumieniowo.

— stats0007

Chociaż nie odpowiadają one konkretnie na twoje pytanie, dwa powiązane zasoby to: Ocena algorytmów uczących się ze strumieni danych Gama i in., W których omawiane są techniki oceny, oraz MOA (Massive Online Analysis) , platforma open source do eksploracji strumieni danych, która obejmuje umiejętność oceny wydajności.

— user77876,

Rygorystyczne badanie wielu algorytmów podobnych do papieru Delgado, który połączyłeś, nie jest dostępne, o ile wiem, ale starano się zebrać wyniki dla rodzin algorytmów.

Oto kilka źródeł, które uważam za przydatne (wyłączenie odpowiedzialności: publikuję w tym obszarze, więc prawdopodobnie jestem stronniczy w wyborze):

Ankieta na temat Ensemble Learning do klasyfikacji strumienia danych (ankieta)
Nauka online i optymalizacja wypukła online (raport techniczny)
Uczenie maszynowe online w strumieniach dużych zbiorów danych (ankieta)
Uczenie maszynowe strumieni danych (książka)
Algorytmy uczenia się drzew i zestawów regresji w ewoluujących strumieniach danych (praca doktorska)
Uczenie się w ramach koncepcji driftu: przegląd (ankieta)
Optymalne i adaptacyjne uczenie się online (praca doktorska)
Adaptacyjne uczenie się i wyszukiwanie dla strumieni danych i częstych wzorców (praca doktorska)

Niektóre pakiety oprogramowania:

W razie potrzeby mogę dodać więcej informacji i źródeł. Jak powiedzieli inni, w tej dziedzinie można skorzystać z kompleksowej ankiety.

— Bar
źródło