Zasadniczo istnieją dwa typowe sposoby uczenia się przeciwko ogromnym zestawom danych (gdy napotykasz ograniczenia czasowe / przestrzenne):
- Oszukiwanie :) - użyj tylko „zarządzalnego” podzbioru do treningu. Utrata dokładności może być nieistotna z uwagi na prawo malejących zwrotów - predykcyjne działanie modelu często spłaszcza się na długo przed włączeniem do niego wszystkich danych treningowych.
- Przetwarzanie równoległe - podziel problem na mniejsze części i rozwiąż każdą z nich na osobnej maszynie / procesorze. Potrzebujesz jednak równoległej wersji algorytmu, ale dobra wiadomość jest taka, że wiele popularnych algorytmów jest naturalnie równoległych: najbliższy sąsiad, drzewa decyzyjne itp.
Czy są inne metody? Czy jest jakaś reguła, kiedy z nich korzystać? Jakie są wady każdego podejścia?